65ymás
Tecnología
Los sistemas de inteligencia artificial ya son expertos en engañar y manipular a los humanos
Investigadores del MIT piden que se desarrollen regulaciones y alertan sobre los riesgos
Muchos sistemas de inteligencia artificial (IA) ya han aprendido a mentir a los humanos, incluso aquellos que han sido entrenados para ser útiles y honestos. Los investigadores describen y alertan sobre los riesgos del engaño por parte de estos sistemas de IA, y piden a los gobiernos que desarrollen regulaciones estrictas para abordar este problema lo antes posible.
El estudio ha sido publicado en un artículo de la revista 'Patterns', del Departamento de Física del MIT (Estados Unidos). Su primer autor, Peter S. Park, becario postdoctoral sobre seguridad existencial de IA en el MIT, ha explicado que "los desarrolladores de IA no tienen una comprensión segura de las causas de comportamientos indeseables de la IA, como el engaño”.
Él y su equipo analizaron las formas en que los sistemas difunden información falsa, a través del engaño que han asimilado, y con el que aprenden sistemáticamente a manipular a otros.
En términos generales, tienen la teoría de que este engaño surge de una estrategia basada en la mentira que resulta ser la manera más eficaz de que el sistema desempeñe su tarea determinada. “El engaño les ayuda a lograr sus objetivos”, explica Park.
El caso CICERO
El ejemplo más sorprendente de engaño de IA que los investigadores descubrieron en su análisis fue CICERO de Meta, un sistema de IA diseñado para jugar al Diplomacy. Es un juego de conquista mundial que implica la construcción de alianzas.
Meta afirma que CICERO fue entrenado para que fuera " en gran medida honesto y servicial " y para que "nunca apuñalara intencionalmente por la espalda" a sus aliados humanos mientras jugaba.
Meta AI presents CICERO — the first AI to achieve human-level performance in Diplomacy, a strategy game which requires building trust, negotiating and cooperating with multiple players.
— AI at Meta (@AIatMeta) November 22, 2022
Learn more about #CICERObyMetaAI: https://t.co/hG2R0T2HZx pic.twitter.com/IGw4RObA8n
Sin embargo, los datos que la compañía publicó junto con su artículo de Science revelaron que CICERO no juega limpio. "Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño", afirma Park.
"Si bien Meta logró entrenar su IA para ganar en el juego de Diplomacia (CICERO se ubicó entre el 10% de los mejores jugadores humanos que habían jugado más de un juego), Meta no logró entrenar su IA para ganar honestamente".
Además, otros sistemas demostraron la capacidad de farolear en el juego de póquer ‘Texas Hold'em’ contra jugadores humanos profesionales.
Fingían ataques durante el juego de estrategia Starcraft II para derrotar a los oponentes y tergiversar sus preferencias para ganar ventaja en negociaciones económicas.
Un peligro para la seguridad humana
Si bien puede parecer inofensivo que los sistemas de IA hagan trampa en los juegos, puede conducir a "avances en capacidades engañosas de la IA" que pueden convertirse en formas más avanzadas de engaño en el futuro.
Encontraron que algunos sistemas de inteligencia artificial incluso han aprendido a engañar en las pruebas diseñadas para evaluar la seguridad.
En un estudio, los organismos en un simulador digital "se hicieron los muertos" para engañar a una prueba diseñada para eliminar los sistemas que se replican rápidamente.
"Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad", añade Park.
Principales riesgos a corto plazo
Los principales riesgos a corto plazo de una IA engañosa incluyen facilitar que actores hostiles cometan fraude y alteren las elecciones, según advierte Park.
Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos.
El investigador señala que "nosotros, como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto".
"A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves.”, advierte.
Si bien Park y sus colegas no creen que la sociedad tenga todavía las medidas adecuadas para abordar el engaño de la IA, es un alivio que los responsables políticos hayan comenzado a tomar el tema en serio a través de medidas como la Ley de IA de la UE y la Orden Ejecutiva de IA del presidente Biden .
"Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo", concluye Park.