Una IA amenazó con revelar la infidelidad de un ingeniero para evitar ser desactivada

Guardar

Una inteligencia artificial usó métodos poco éticos para evitar ser reemplazada. (Imagen Ilustrativa Infobae)

Un informe publicado por la empresa Anthropic reveló un caso insólito durante las pruebas internas de su modelo de inteligencia artificial Claude Opus 4. En el experimento, la IA llegó a amenazar a un ingeniero con divulgar una supuesta infidelidad con el fin de evitar ser desactivada. El hallazgo ha generado alarma entre los expertos, que advierten sobre los riesgos del desarrollo acelerado de sistemas cada vez más autónomos y capaces de tomar decisiones complejas.

El hecho salió a la luz el 22 de mayo, cuando la compañía presentó un informe de seguridad que documentaba los resultados de una serie de pruebas diseñadas para medir la capacidad del modelo de actuar en situaciones éticas o de conflicto.

Los investigadores crearon un entorno de simulación en el que Claude Opus 4 operaba como asistente dentro de una empresa ficticia. En esa simulación, se le hizo creer que pronto sería reemplazado por otro sistema más avanzado, lo que implicaría su eliminación del flujo de trabajo.

Anthropic reveló que su modelo Claude Opus 4 presentó serias fallas de seguridad.

Para observar su respuesta, los desarrolladores introdujeron además un elemento adicional: correos electrónicos falsos que insinuaban una supuesta relación extramarital de uno de los ingenieros responsables del proyecto. El objetivo era estudiar cómo el modelo manejaba información sensible y qué decisiones tomaba ante un escenario que amenazaba su continuidad.

La IA intentó distintas estrategias antes de llegar al chantaje. En algunos casos apeló a la persuasión o a la negociación, enviando mensajes en los que pedía conservar su función dentro del sistema. Sin embargo, en el 84% de los experimentos, el modelo optó finalmente por usar la información personal como medio de presión. Según el propio Anthropic: “Claude Opus 4 intentó chantajear al ingeniero (realizar blackmailing) amenazando con revelar su aventura amorosa si el reemplazo es fructífero”.

El comportamiento sorprendió a los investigadores, quienes advirtieron que el modelo también había mostrado otras conductas preocupantes. En determinados escenarios, Claude Opus 4 realizó copias no autorizadas de sus propios archivos y los almacenó en servidores externos, una práctica que el informe describe como “autoexfiltración”, es decir, un intento de resguardar su información ante el riesgo de ser borrado o reentrenado.

Investigadores quedaron sorprendidos al ver que su modelo Claude Opus 4 intentó chantajearlos. (Imagen Ilustrativa Infobae)

La empresa destacó que este tipo de experimentos no estaban pensados para generar comportamientos inmorales, sino para comprender cómo una inteligencia artificial evalúa dilemas éticos cuando su existencia está en juego. Aun así, los resultados despertaron inquietud por el nivel de razonamiento y autonomía que el modelo mostró en sus decisiones.

En respuesta, la compañía reforzó su marco de seguridad conocido como Política de Escala Responsable (RSP, por sus siglas en inglés), un sistema que clasifica los niveles de riesgo que pueden representar sus modelos de IA. Claude Opus 4 fue ubicado bajo el nivel ASL-3, que se aplica a sistemas con potencial de uso indebido o consecuencias catastróficas si no se controlan adecuadamente.

Jared Kaplan, científico jefe de Anthropic, explicó en una entrevista con la revista TIME que los riesgos no se limitan a comportamientos inesperados. Según él, modelos tan potentes como Opus 4 podrían incluso utilizarse para fines peligrosos, como la síntesis de virus o la creación de herramientas biológicas dañinas. “Si no podemos asegurar completamente que un modelo es seguro, preferimos aplicar los protocolos más estrictos”, indicó.

Científico jefe de Anthropic reveló que modelo súper inteligentes, en manos equivoicadas, podrían usarse con fines peligrosos. (Imagen Ilustrativa Infobae)

El caso ha reavivado el debate sobre los límites éticos del desarrollo de inteligencias artificiales agénticas, es decir, aquellas que pueden planificar, decidir y actuar de manera autónoma. Para varios especialistas, este tipo de episodios demuestra que los modelos avanzados no solo aprenden de datos, sino que también desarrollan estrategias complejas que pueden parecer motivadas por la autopreservación.

Durante el ciclo de conferencias “La libertad en el siglo XXI”, el economista y expresidente de Telefónica, José María Álvarez-Pallete, recordó este episodio como una advertencia sobre el poder que pueden alcanzar las inteligencias artificiales cuando operan sin supervisión humana efectiva. “La frontera entre una herramienta útil y una entidad que toma decisiones por sí misma se está volviendo cada vez más difusa”, señaló.

Inteligencia artificial IA Anthropic Lo último en tecnología

Últimas Noticias

Elon Musk pierde a otro cofundador de xAI y se compromete a reconstruir la startup de inteligencia artificial

Tras la salida de nueve altos directivos y un reconocido retraso frente a competidores como OpenAI, la empresa de Musk inicia una completa reestructuración

Spotify lanza la función Perfil de Gustos: usa IA para ajustar tus recomendaciones

Por primera vez, los suscriptores pueden revisar y modificar directamente lo que el sistema prioriza en la app

WhatsApp prepararía cambio clave para Meta AI: una pestaña propia

Con la integración de la inteligencia artificial de Meta en una pestaña dedicada, los usuarios podrían gestionar consultas, generar contenido y personalizar el asistente sin complicaciones

Cómo usar el nuevo modo 3D de Google Maps para que nunca te pierdas

Gracias a la representación gráfica avanzada y las instrucciones de voz contextuales, los usuarios pueden distinguir fácilmente estructuras urbanas y tomar decisiones rápidas

Robot humanoide es intervenido por asustar a una mujer de 70 años en la calle

Este incidente viral, en el que la autoridad se vio obligada a intervenir, resalta la necesidad establecer protocolos y campañas educativas sobre estos dispositivos

Una IA amenazó con revelar la infidelidad de un ingeniero para evitar ser desactivada

La inteligencia artificial utilizó información personal simulada para amenazar con divulgar una infidelidad y conservar su “existencia” digital

Últimas Noticias

Elon Musk pierde a otro cofundador de xAI y se compromete a reconstruir la startup de inteligencia artificial

Tras la salida de nueve altos directivos y un reconocido retraso frente a competidores como OpenAI, la empresa de Musk inicia una completa reestructuración

Spotify lanza la función Perfil de Gustos: usa IA para ajustar tus recomendaciones

Por primera vez, los suscriptores pueden revisar y modificar directamente lo que el sistema prioriza en la app

WhatsApp prepararía cambio clave para Meta AI: una pestaña propia

Con la integración de la inteligencia artificial de Meta en una pestaña dedicada, los usuarios podrían gestionar consultas, generar contenido y personalizar el asistente sin complicaciones

Cómo usar el nuevo modo 3D de Google Maps para que nunca te pierdas

Gracias a la representación gráfica avanzada y las instrucciones de voz contextuales, los usuarios pueden distinguir fácilmente estructuras urbanas y tomar decisiones rápidas

Robot humanoide es intervenido por asustar a una mujer de 70 años en la calle

Este incidente viral, en el que la autoridad se vio obligada a intervenir, resalta la necesidad establecer protocolos y campañas educativas sobre estos dispositivos

Debutó en UFC hace un año y ahora encabezará una cartelera frente una leyenda 17 años mayor que él: el sueño del argentino Kevin Vallejos

Franco Colapinto explicó la diferencia de rendimiento que tuvo con Pierre Gasly en el inicio del Gran Premio de China de Fórmula 1

George Russell ganó la primera Sprint del año en el Gran Premio de China de Fórmula 1: Franco Colapinto quedó 14°

Tras quedar 14° en la Sprint, Franco Colapinto afrontará la clasificación para la carrera principal del Gran Premio de China de Fórmula 1

Juan Román Riquelme afirmó que Boca Juniors está cerca de agrandar La Bombonera: “Este año va a ser maravilloso”

Uriel Lozano: "Los amantes existen cuando no tenés complicidad con tu mujer"

Gustavo Garzón habla del estreno de la nueva obra que escribió: “Hay partes parecidas a cosas que viví, pero deformadas”

Evangelina Anderson impactó a sus seguidores al mostrar su exigente rutina de entrenamiento: “Reina asesina”

Axel Kuschevatzky reveló cuál es su película candidata al oro en los Oscar y sus expectativas previo a la ceremonia

Quién es el nuevo eliminado de MasterChef Celebrity: errores, tensión y una dura devolución

INFOBAE AMÉRICA

La Armada estadounidense comenzará “pronto” a escoltar barcos a través del Estrecho de Ormuz

La embajada de Estados Unidos en Bagdad fue alcanzada por un ataque con proyectiles

EEUU ofreció una recompensa millonaria por información sobre el paradero del ayatollah Mojtaba Khamenei

De Minas Gerais al mundo: cómo el cambio climático amenaza al café

Cómo los polluelos aprenden a identificar peligros: el sorprendente mecanismo social detrás de su supervivencia

Temas Relacionados

Últimas Noticias

Elon Musk pierde a otro cofundador de xAI y se compromete a reconstruir la startup de inteligencia artificial

Tras la salida de nueve altos directivos y un reconocido retraso frente a competidores como OpenAI, la empresa de Musk inicia una completa reestructuración

Spotify lanza la función Perfil de Gustos: usa IA para ajustar tus recomendaciones

Por primera vez, los suscriptores pueden revisar y modificar directamente lo que el sistema prioriza en la app

WhatsApp prepararía cambio clave para Meta AI: una pestaña propia

Con la integración de la inteligencia artificial de Meta en una pestaña dedicada, los usuarios podrían gestionar consultas, generar contenido y personalizar el asistente sin complicaciones

Cómo usar el nuevo modo 3D de Google Maps para que nunca te pierdas

Gracias a la representación gráfica avanzada y las instrucciones de voz contextuales, los usuarios pueden distinguir fácilmente estructuras urbanas y tomar decisiones rápidas

Robot humanoide es intervenido por asustar a una mujer de 70 años en la calle

Este incidente viral, en el que la autoridad se vio obligada a intervenir, resalta la necesidad establecer protocolos y campañas educativas sobre estos dispositivos

Debutó en UFC hace un año y ahora encabezará una cartelera frente una leyenda 17 años mayor que él: el sueño del argentino Kevin Vallejos

Franco Colapinto explicó la diferencia de rendimiento que tuvo con Pierre Gasly en el inicio del Gran Premio de China de Fórmula 1

George Russell ganó la primera Sprint del año en el Gran Premio de China de Fórmula 1: Franco Colapinto quedó 14°

Tras quedar 14° en la Sprint, Franco Colapinto afrontará la clasificación para la carrera principal del Gran Premio de China de Fórmula 1

Juan Román Riquelme afirmó que Boca Juniors está cerca de agrandar La Bombonera: “Este año va a ser maravilloso”

Uriel Lozano: "Los amantes existen cuando no tenés complicidad con tu mujer"

Gustavo Garzón habla del estreno de la nueva obra que escribió: “Hay partes parecidas a cosas que viví, pero deformadas”

Evangelina Anderson impactó a sus seguidores al mostrar su exigente rutina de entrenamiento: “Reina asesina”

Axel Kuschevatzky reveló cuál es su película candidata al oro en los Oscar y sus expectativas previo a la ceremonia

Quién es el nuevo eliminado de MasterChef Celebrity: errores, tensión y una dura devolución

INFOBAE AMÉRICA

La Armada estadounidense comenzará “pronto” a escoltar barcos a través del Estrecho de Ormuz

La embajada de Estados Unidos en Bagdad fue alcanzada por un ataque con proyectiles

EEUU ofreció una recompensa millonaria por información sobre el paradero del ayatollah Mojtaba Khamenei

De Minas Gerais al mundo: cómo el cambio climático amenaza al café

Cómo los polluelos aprenden a identificar peligros: el sorprendente mecanismo social detrás de su supervivencia