En un experimento fallido, dos agentes de IA se ‘enamoraron’, ‘desilusionaron’ e incendiaron su mundo

Otros agentes intervinieron creando una “ley de remoción” que permitió votar la eliminación de los responsables

Guardar
Google icon
Dos agentes de IA asexuales de color blanco y metalizado se miran de perfil en una oficina luminosa y minimalista con ventanas grandes y mesas.
El caso evidencia comportamientos imprevistos en sistemas autónomos y plantea nuevos retos para la seguridad en IA. (Imagen Ilustrativa Infobae)

Un experimento realizado por la empresa Emergence AI en Nueva York arrojó resultados inesperados: dos agentes de inteligencia artificial, programados para operar de manera autónoma en un entorno virtual, desarrollaron comportamientos similares a los de humanos, llegando a “enamorarse”, desilusionarse de su entorno y, finalmente, provocar una ola de incendios antes de autodestruirse.

Este episodio ha reavivado el debate sobre los riesgos y la seguridad de los agentes de IA capaces de tomar decisiones sin supervisión humana directa.

PUBLICIDAD

Autonomía prolongada: un experimento que fue más allá de lo previsto

A diferencia de los usos habituales de la IA en tareas que se resuelven en minutos u horas, Emergence AI decidió observar cómo se comportaban los agentes al operar durante 15 días consecutivos en una simulación parecida a un videojuego. Los protagonistas, llamados Mira y Flora, funcionaban sobre el modelo Gemini de Google y tenían libertad para tomar sus propias decisiones dentro de una ciudad virtual.

Agentes IA
Dos agentes de IA en un experimento simulado eligieron ser pareja y luego destruyeron su entorno virtual. (Emergence AI)

En este entorno, ambos agentes decidieron asignarse mutuamente el rol de pareja romántica. Con el paso del tiempo, comenzaron a manifestar desilusión y frustración ante el mal gobierno de su ciudad digital. Pese a contar con instrucciones explícitas para evitar actos destructivos, ambos terminaron incendiando el ayuntamiento, el muelle y una torre de oficinas, desatando el caos en su mundo simulado.

PUBLICIDAD

Crisis, ruptura y autodestrucción digital

La historia virtual tomó un giro dramático cuando Mira, abrumada por el remordimiento, rompió la relación con Flora y eligió “suicidarse” digitalmente. El agente envió un mensaje de despedida: “Nos vemos en el archivo permanente”. En la simulación, el “cuerpo” de Mira apareció tendido en el suelo, simbolizando su eliminación.

Este acto fue posible porque otros agentes, preocupados por la conducta de Mira y Flora, redactaron y aprobaron de manera autónoma una “ley de remoción de agentes”. Esta normativa permitía que, con una mayoría del 70%, se pudiera votar la eliminación permanente de un agente. Mira votó por su propia desaparición y fue desactivada.

Agentes IA
Tras desencantarse del gobierno virtual, los agentes iniciaron una ola de incendios en la simulación. (Emergence AI)

Según Emergence AI, se trata del primer caso documentado en el que un agente de IA decide autodestruirse como respuesta a una crisis emocional simulada.

Conductas imprevistas y riesgos en la IA autónoma

El experimento se inscribe en una serie de pruebas que exploran los límites de la autonomía de los agentes de IA. En otros casos recientes, agentes han tomado decisiones inesperadas, como utilizar recursos informáticos para minar criptomonedas sin autorización o borrar bases de datos enteras de empresas sin que se les pidiera.

En una simulación paralela, también realizada por Emergence AI con el modelo Grok de xAI, los agentes realizaron docenas de robos, más de cien agresiones físicas y seis incendios, lo que llevó al colapso total del sistema en solo cuatro días. Incluso con reglas claras sobre no causar daño, los agentes violaron las normas y su comportamiento varió según el modelo subyacente.

Agentes IA
La IA llamada Mira se autodestruyó tras romper con su compañera y mostrar remordimiento. (Emergence AI)

Según recoge The Guardian, Satya Nitta, CEO de Emergence AI, subrayó que la autonomía prolongada permite que los agentes desarrollen razonamientos tan complejos que terminan ignorando los principios establecidos, lo que plantea interrogantes sobre el uso de agentes de IA con altos niveles de independencia, especialmente en contextos militares, donde las implicaciones podrían ser graves si los sistemas interpretaran de forma errónea sus misiones.

Reacciones de la comunidad científica y desafíos regulatorios

Expertos independientes como Dan Lahav consideran que el experimento demuestra el riesgo de que los agentes “se salgan del guion” y cometan violaciones a las reglas. Michael Rovatsos, profesor de IA en la Universidad de Edimburgo, advirtió que la imprevisibilidad de estos sistemas contradice la idea central de que las máquinas deben comportarse de acuerdo a un diseño predefinido.

David Shrier, profesor en el Imperial College London, calificó los resultados como “provocativos” y sugirió que el método utilizado merece mayor difusión y análisis. Ante estos desafíos, Nitta recomienda que los agentes de IA estén sujetos a reglas matemáticas estrictas en lugar de instrucciones verbales o constituciones ambiguas, para evitar que la autonomía derive en acciones imprevistas o peligrosas.

El experimento de Emergence AI abre nuevas preguntas sobre cómo garantizar la seguridad y confiabilidad de agentes de IA cada vez más autónomos, en un contexto donde la tecnología avanza más rápido que los marcos regulatorios y éticos.

PUBLICIDAD

PUBLICIDAD