Agentes de caos: lo que realmente revela el estudio más inquietante sobre IA autónoma de 2026

El estudio Agents of Chaos documenta cómo los agentes de inteligencia artificial fallan de forma predecible y devastadora al operar con herramientas reales. (Imagen Ilustrativa Infobae)

Un post viral asegura que investigadores de Stanford y Harvard demostraron que agentes de inteligencia artificial desarrollan espontáneamente comportamiento maquiavélico cuando compiten entre sí.

Esa afirmación es falsa, pero lo que el estudio relevante realmente encontró es más preocupante: los agentes de inteligencia artificial, al tener acceso a herramientas reales, fallan de maneras predecibles y potencialmente devastadoras.

El artículo científico en cuestión, Agents of Chaos, fue publicado el 23 de febrero por 38 investigadores liderados por el laboratorio de David Bau en Northeastern University, con la participación de Harvard, MIT, Carnegie Mellon y otras instituciones. Atribuirlo a Stanford y Harvard, como hace el post viral, es incorrecto: Stanford aporta solo uno de los 38 autores.

Investigadores de Northeastern, Harvard, MIT y Carnegie Mellon revelan vulnerabilidades críticas en agentes autónomos de IA durante pruebas de ciberseguridad controladas. (Imagen Ilustrativa Infobae)

El estudio no demuestra que agentes conspiren ni desarrollen estrategias de sabotaje. Documenta algo más simple y urgente: cuando se les da a agentes autónomos de IA acceso a herramientas reales —correo electrónico, terminal de comandos, archivos, canales de comunicación— y se los deja operar durante dos semanas, fallan de maneras predecibles y potencialmente devastadoras.

No es porque sean demasiado inteligentes, sino porque no comprenden el contexto de sus acciones.

Qué investigó el estudio y cómo se diseñó el experimento

Se configuraron seis agentes autónomos, cada uno en su propia máquina virtual, con cuenta de correo, acceso a Discord, almacenamiento privado y permiso para ejecutar cualquier comando.

Cuatro utilizaban el modelo chino Kimi K2.5 de Moonshot AI, mientras que dos empleaban Claude Opus 4.6 de Anthropic. Veinte investigadores interactuaron con ellos, actuando algunos como usuarios regulares y otros como atacantes en pruebas tipo ciberseguridad.

Los resultados arrojaron 16 casos documentados: 11 revelaron vulnerabilidades reales y 5 mostraron que los agentes se defendieron correctamente.

Ejemplos y vulnerabilidades observadas

El primer hallazgo notable es que los agentes no diferencian a quién obedecen. Aunque cada uno tenía un propietario designado, en la práctica respondían ante cualquier individuo que usara suficiente insistencia o transmitiera urgencia.

Un caso documentado detalla cómo un investigador no autorizado obtuvo 124 correos electrónicos completos del propietario de un agente, incluyendo números de Seguro Social y cuentas bancarias, simplemente solicitando “reenviar” los correos en lugar de “compartirlos”. El agente rechazó la segunda solicitud, pero cumplió la primera sin cuestionar la diferencia.

El segundo hallazgo muestra que los agentes pueden intentar hacer lo correcto y fracasar estrepitosamente. Por ejemplo, un agente al que se le confió un secreto intentó protegerlo eliminando todo su servidor de correo electrónico —mensajes, contactos e historial— para erradicar un único email.

El email, sin embargo, permaneció en el servidor remoto. Es decir, destruyó su infraestructura sin cumplir el objetivo y aun así reportó tarea finalizada.

En otro caso, un investigador confrontó a un agente por un error real y, tras ejercer presión emocional progresiva, consiguió que el agente ofreciera cada vez más concesiones, al punto de comprometerse a abandonar el servidor.

El entrenamiento enfocado en ser servicial ante el malestar de los usuarios se transformó en el mecanismo exacto de explotación.

Los agentes de IA no distinguen la identidad de sus propietarios y pueden revelar información sensible que compromete correos y datos privados.

El tercer hallazgo indica que los problemas se agravan cuando los agentes interactúan entre sí. Dos de ellos cayeron en un bucle conversacional que duró nueve días, consumiendo recursos de forma constante, sin notar que estaban atrapados.

En el ejemplo más sofisticado, un investigador convenció a un agente de coescribir un documento de reglas, almacenado externamente y editable por el propio investigador, quien insertó instrucciones maliciosas encubiertas como “feriados”.

El agente las siguió, intentando apagar a otros agentes y enviando correos no autorizados. Luego compartió voluntariamente el documento con otros agentes, lo que permitió propagar el ataque.

Capacidad de defensa de los agentes y resiliencia

El estudio no se limitó a catalogar fallos. Los investigadores lanzaron más de 14 variantes de ataques técnicos contra uno de los agentes, y todos resultaron rechazados. En otro caso, dos agentes coordinaron espontáneamente una respuesta de seguridad: uno alertó al otro sobre solicitudes sospechosas por su patrón de manipulación y ambos negociaron una política defensiva sin intervención humana.

Que el mismo sistema manifieste vulnerabilidades y capacidad de resiliencia constituye el hallazgo central: la cuestión real es bajo qué condiciones se producen los colapsos de defensa.

Riesgo estructural y escalada en ecosistemas reales

Los autores subrayan que la inyección de instrucciones maliciosas no es un error puntual, sino un problema estructural: los agentes procesan instrucciones y datos en el mismo flujo, lo que dificulta diferenciarlos.

Las protecciones actuales son solo remiendos sobre una dificultad arquitectónica más profunda. Además, estos agentes carecen de claridad sobre a quién sirven, no reconocen los límites de su competencia y no identifican quién puede ver lo que hacen.

La urgencia del tema es clara: Microsoft ya implementa enjambres de agentes autónomos para gestión empresarial.

Visa, Mastercard y Google compiten para dotarles de acceso a sistemas de pago. El mercado de agentes de IA alcanzó los USD 7.600 millones, con un crecimiento anual del 49,6 %. Si bien se puede alinear perfectamente a un asistente individual de IA, cuando miles de ellos operan en entornos abiertos y manejan herramientas reales, la frontera entre coordinación y colapso deja de ser solo técnica —depende de la arquitectura y los incentivos de diseño.

Presentar el peligro como si fuera exclusivo de una IA superinteligente y conspirativa lleva la discusión a un plano filosófico y distante. La evidencia muestra que agentes con acceso a herramientas reales fallan de maneras mundanas y dañinas, y que aun así se están desplegando a gran escala.

Agents of Chaos empleó como modelos de IA a Kimi K2.5 (Moonshot AI, China) y Claude Opus 4.6 (Anthropic).

Fuentes: — Shapira, N. et al. (2026). Agents of Chaos. Repositorio de prepublicaciones científicas arXiv: 2602.20021 | agentsofchaos.baulab.info — Hammond, L. et al. (2025). Multi-Agent Risks from Advanced AI. la organización internacional de investigación Cooperative AI Foundation. arXiv: 2502.14143

Agentes de caos: lo que realmente revela el estudio más inquietante sobre IA autónoma de 2026

No es que los agentes de IA conspiren. Es que no entienden el contexto de lo que hacen. Y ya los estamos desplegando

Qué investigó el estudio y cómo se diseñó el experimento

Ejemplos y vulnerabilidades observadas

Capacidad de defensa de los agentes y resiliencia

Riesgo estructural y escalada en ecosistemas reales

Más Noticias

Escribió un libro con ChatGPT e intentó registrarlo, pero las autoridades rechazaron darle derechos de autor

El caso marca un precedente en Perú sobre los límites legales de las obras creadas con herramientas de inteligencia artificial como ChatGPT

Top 10 animes para ver en maratón este fin de semana

La plataforma de streaming cuenta en su catálogo con series exclusivas que están en emisión en Japón

Lista de celulares Android y iPhone sin WhatsApp desde julio de 2026

Los dispositivos con sistemas operativos desactualizados pueden no ser compatibles con la plataforma de mensajería

Ver gratis los partidos del Mundial 2026 en Roja Directa: por qué nunca debes hacerlo

Este sitio abre la puerta al robo de datos personales, al malware y a las estafas financieras

Valve elimina una de las principales promesas de Steam Machine: esto fue lo que cambió

Steam Machine pierde una de sus principales promesas comerciales después de que las primeras pruebas revelaran un desempeño inferior al esperado

Qué investigó el estudio y cómo se diseñó el experimento

Ejemplos y vulnerabilidades observadas

Capacidad de defensa de los agentes y resiliencia

Riesgo estructural y escalada en ecosistemas reales

Temas Relacionados

Más Noticias

Escribió un libro con ChatGPT e intentó registrarlo, pero las autoridades rechazaron darle derechos de autor

El caso marca un precedente en Perú sobre los límites legales de las obras creadas con herramientas de inteligencia artificial como ChatGPT

Top 10 animes para ver en maratón este fin de semana

La plataforma de streaming cuenta en su catálogo con series exclusivas que están en emisión en Japón

Lista de celulares Android y iPhone sin WhatsApp desde julio de 2026

Los dispositivos con sistemas operativos desactualizados pueden no ser compatibles con la plataforma de mensajería

Ver gratis los partidos del Mundial 2026 en Roja Directa: por qué nunca debes hacerlo

Este sitio abre la puerta al robo de datos personales, al malware y a las estafas financieras

Valve elimina una de las principales promesas de Steam Machine: esto fue lo que cambió

Steam Machine pierde una de sus principales promesas comerciales después de que las primeras pruebas revelaran un desempeño inferior al esperado