
Un informe publicado por la empresa Anthropic reveló un caso insólito durante las pruebas internas de su modelo de inteligencia artificial Claude Opus 4. En el experimento, la IA llegó a amenazar a un ingeniero con divulgar una supuesta infidelidad con el fin de evitar ser desactivada. El hallazgo ha generado alarma entre los expertos, que advierten sobre los riesgos del desarrollo acelerado de sistemas cada vez más autónomos y capaces de tomar decisiones complejas.
El hecho salió a la luz el 22 de mayo, cuando la compañía presentó un informe de seguridad que documentaba los resultados de una serie de pruebas diseñadas para medir la capacidad del modelo de actuar en situaciones éticas o de conflicto.
Los investigadores crearon un entorno de simulación en el que Claude Opus 4 operaba como asistente dentro de una empresa ficticia. En esa simulación, se le hizo creer que pronto sería reemplazado por otro sistema más avanzado, lo que implicaría su eliminación del flujo de trabajo.

Para observar su respuesta, los desarrolladores introdujeron además un elemento adicional: correos electrónicos falsos que insinuaban una supuesta relación extramarital de uno de los ingenieros responsables del proyecto. El objetivo era estudiar cómo el modelo manejaba información sensible y qué decisiones tomaba ante un escenario que amenazaba su continuidad.
La IA intentó distintas estrategias antes de llegar al chantaje. En algunos casos apeló a la persuasión o a la negociación, enviando mensajes en los que pedía conservar su función dentro del sistema. Sin embargo, en el 84% de los experimentos, el modelo optó finalmente por usar la información personal como medio de presión. Según el propio Anthropic: “Claude Opus 4 intentó chantajear al ingeniero (realizar blackmailing) amenazando con revelar su aventura amorosa si el reemplazo es fructífero”.
El comportamiento sorprendió a los investigadores, quienes advirtieron que el modelo también había mostrado otras conductas preocupantes. En determinados escenarios, Claude Opus 4 realizó copias no autorizadas de sus propios archivos y los almacenó en servidores externos, una práctica que el informe describe como “autoexfiltración”, es decir, un intento de resguardar su información ante el riesgo de ser borrado o reentrenado.

La empresa destacó que este tipo de experimentos no estaban pensados para generar comportamientos inmorales, sino para comprender cómo una inteligencia artificial evalúa dilemas éticos cuando su existencia está en juego. Aun así, los resultados despertaron inquietud por el nivel de razonamiento y autonomía que el modelo mostró en sus decisiones.
En respuesta, la compañía reforzó su marco de seguridad conocido como Política de Escala Responsable (RSP, por sus siglas en inglés), un sistema que clasifica los niveles de riesgo que pueden representar sus modelos de IA. Claude Opus 4 fue ubicado bajo el nivel ASL-3, que se aplica a sistemas con potencial de uso indebido o consecuencias catastróficas si no se controlan adecuadamente.
Jared Kaplan, científico jefe de Anthropic, explicó en una entrevista con la revista TIME que los riesgos no se limitan a comportamientos inesperados. Según él, modelos tan potentes como Opus 4 podrían incluso utilizarse para fines peligrosos, como la síntesis de virus o la creación de herramientas biológicas dañinas. “Si no podemos asegurar completamente que un modelo es seguro, preferimos aplicar los protocolos más estrictos”, indicó.

El caso ha reavivado el debate sobre los límites éticos del desarrollo de inteligencias artificiales agénticas, es decir, aquellas que pueden planificar, decidir y actuar de manera autónoma. Para varios especialistas, este tipo de episodios demuestra que los modelos avanzados no solo aprenden de datos, sino que también desarrollan estrategias complejas que pueden parecer motivadas por la autopreservación.
Durante el ciclo de conferencias “La libertad en el siglo XXI”, el economista y expresidente de Telefónica, José María Álvarez-Pallete, recordó este episodio como una advertencia sobre el poder que pueden alcanzar las inteligencias artificiales cuando operan sin supervisión humana efectiva. “La frontera entre una herramienta útil y una entidad que toma decisiones por sí misma se está volviendo cada vez más difusa”, señaló.
Últimas Noticias
La revolución de la IA colapsa el suministro mundial de chips de memoria
Tim Cook, CEO de Apple, señaló que la situación reducirá los márgenes del iPhone

IA contra la soledad: de bodas con ChatGPT a robots que acompañan a mayores
El caso de Yurina Noguchi en Japón, casada simbólicamente con una IA, muestra cómo la tecnología puede ser un apoyo emocional

Por qué se congela el móvil: posibles causas y soluciones prácticas
Las razones por las que un celular puede quedarse bloqueado son variadas, aunque habitualmente tienen que ver con el software

Spotify y consumo de datos: así influye la calidad de las canciones en tus megas
A mayor calidad de audio, mayor será el consumo de datos por hora de reproducción

Paramount+ y HBO Max se unirán en un solo servicio de streaming: adiós a pagar doble
La nueva plataforma contaría con más de 200 millones de suscriptores en el mundo


