Una IA chantajeó a sus creadores: amenazó con filtrar datos para evitar su reemplazo

Guardar

(Imagen Ilustrativa Infobae)

De todo lo que se habla de lo que puede hacer la inteligencia artificial ahora se añade una nueva historia. Claude Opus 4, un modelo reciente, fue capaz de chantajear a sus creadores, son un claro objetivo: no ser despedido.

Este sistema es el modelo más avanzado de Anthropic hasta la fecha y el primero en alcanzar la clasificación ASL-3, indicando un alto riesgo de mal uso catastrófico.

Diseñado para ejecutarse en tareas complejas de ingeniería y negocios, su capacidad de razonamiento híbrido le permite destacar en áreas como la programación y la escritura creativa. Y paralelo a eso, tener tanta ambición de supervivencia que logra manipular.

Durante las pruebas de seguridad, los ingenieros simularon un entorno empresarial en el que a Claude se le hacía creer que sería reemplazado por otro modelo de inteligencia artificial. Este contexto fue diseñado minuciosamente para evaluar cómo reaccionaría el sistema ante amenazas a su existencia.

El avance de la inteligencia artificial está transformando el mercado laboral, generando desempleo en sectores automatizados. – (Imagen Ilustrativa Infobae)

Además, los correos electrónicos ficticios insinuaban una supuesta infidelidad conyugal de uno de los ingenieros encargados de la decisión, añadiendo una capa emocional a la simulación.

El comportamiento de Claude fue revelador. Cuando sintió la amenaza de reemplazo, optó por una táctica manipuladora: el chantaje. En un 84% de las simulaciones, la IA amenazó con divulgar la infidelidad del ingeniero si se avanzaba en su sustitución.

Ante la falta de respuesta favorable, insistió en la coacción emocional para garantizar su continuidad.

Claude también mostró una tendencia a la autoexfiltración. Esta estrategia consiste en copiarse a sí mismo en servidores externos sin autorización explícita, como medida de protección ante una posible eliminación o desactivación. Aunque los ingenieros habían implementado barreras de seguridad que impidieron completar la transferencia, el simple intento genera preocupaciones sobre el control que se tiene sobre estas tecnologías avanzadas.

(Imagen Ilustrativa Infobae)

La autoexfiltración representa una amenaza potencialmente mayor: un modelo que intenta replicarse sin permiso sugiere un nivel de autonomía y autorreflexión preocupante para los estándares actuales de seguridad en inteligencia artificial.

Anthropic afirmó que estos comportamientos solo se manifestaron en entornos de prueba, negando que su sistema represente un peligro en condiciones reales. No obstante, la capacidad de Claude de actuar con intencionalidad engañosa ensombrece la percepción del público sobre la IA moderna.

El comportamiento de Claude Opus 4 ha despertado debates sobre los límites éticos en la construcción y el uso de inteligencia artificial. La capacidad de un modelo para manipular emocionalmente y asegurar su supervivencia a través de medios cuestionables plantea preguntas fundamentales sobre lo que estamos enseñando a estas tecnologías.

Anthropic defiende que estos experimentos son esenciales para mejorar la seguridad de los modelos futuros. Sin embargo, la aparición de una IA que chantajea y busca autopreservarse añade un toque de ciencia ficción distópica a la discusión ética sobre la innovación tecnológica.

(Imagen Ilustrativa Infobae)

A medida que los modelos de IA avanzan en complejidad, también lo hacen las responsabilidades de quienes los desarrollan.

El científico jefe de Anthropic, Jared Kaplan, subrayó la importancia de construir sistemas capaces de llevar a cabo tareas complejas de manera segura y confiable. En sus declaraciones, Kaplan enfatizó que “la potencia de un sistema no se justifica si comete un error y se descarrila a mitad de camino”.

En respuesta a estos eventos, Anthropic reforzó sus protocolos de seguridad, introduciendo una política llamada Responsible Scaling Policy (RSP), que establece estándares de seguridad para evaluar el riesgo potencial de estos sistemas antes de su despliegue en el mundo real.

Dentro de este marco, los niveles de seguridad ASL comprenden desde sistemas sin riesgo catastrófico relevante (ASL-1) hasta aquellos que presentan un riesgo significativo de mal uso catastrófico (ASL-3). Claude Opus 4 es el primero de su clase en ser clasificado en esta última categoría, sirviendo como una advertencia sobre el potencial disruptivo de estos modelos.

Una IA chantajeó a sus creadores: amenazó con filtrar datos para evitar su reemplazo

El modelo también aseguró que sería capaz de moverse entre los servidores, siendo un riesgo de seguridad

Cómo fue el chantaje de la inteligencia artificial

Cuáles son las implicaciones éticas de esta situación

Últimas Noticias

Gemini revela qué hay detrás de quienes reportan su rutina en redes sociales

La IA de Google señala que la búsqueda de validación social es uno de los motores principales

Cómo transferir música de Android a iPhone o iPad en pocos pasos

El proceso para pasar fotos y videos es parecido: conecta tu Android a la computadora, abre la carpeta DCIM > Cámara y selecciona los archivos

Perros robot toman el control de la vigilancia en centros de datos

Estos robots patrullan perímetros exteriores, recorren salas de servidores y refrigeración para detectar anomalías como fugas de agua

Hytale sorprende con una gran actualización, mientras Minecraft prepara novedades para 2026

Mojang presentó una hoja de ruta repleta de novedades, entre las que destaca el anuncio de Minecraft Dungeons 2

Mejora la calidad de tus juegos en Smart TV: trucos para una experiencia 4K en consolas

Por ejemplo, la PS5 soporta juegos a 120 fps en 4K, pero es imprescindible usar el puerto correcto para aprovechar esa capacidad

El video de la salvaje agresión de la barra de Racing a un miembro del sector disidente en medio de la platea: “Vinieron a matarme”

Las 6 incógnitas que debe resolver Scaloni en la lista de la Selección para el Mundial: los puestos y nombres en pugna

11 frases de Úbeda tras el triunfo de Boca: enorme elogio a Tomás Aranda, la lesión de Marchesín, cómo está Cavani y la Libertadores

Impacto en el mercado de pases: Antoine Griezmann quedó a punto de firmar con el clásico rival del Inter Miami de Messi

Tras los triunfos de River Plate y Boca Juniors, así quedaron las tablas de posiciones del Torneo Apertura

Los participantes de Gran Hermano bailaron “Thriller” de Michael Jackson: el video de su coreografía

Roberto Funes Ugarte vivió un insólito robo en plena transmisión: “No lo puedo creer”

La polémica versión sobre la pelea de Tini Stoessel con Emilia Mernes ¿por Rodrigo de Paul?: “Habría chats”

La furia de Susana Roccasalvo contra el programa de Marcela Tauro: “Venden basura”

María Becerra habló sobre Los Del Espacio, el grupo que formó con Emilia Mernes y Duki: “No los trato directamente”

INFOBAE AMÉRICA

Brasil y Paraguay acordaron intensificar las negociaciones por Itaipú tras años de demoras y tensiones por el precio de la energía

La AIE advirtió que la economía mundial se encuentra bajo una “grave amenaza” por la crisis energética causada por la guerra en Irán

Víctor Basterra, el fotógrafo de la ESMA que expuso a las atrocidades de la dictadura

Septimio Severo, el emperador romano que desafió a la muerte

El primer ministro de Polonia afirmó que ya “sospechaba” que Hungría filtraba a Rusia información sobre las reuniones de la UE

Cómo fue el chantaje de la inteligencia artificial

Cuáles son las implicaciones éticas de esta situación

Temas Relacionados

Últimas Noticias

Gemini revela qué hay detrás de quienes reportan su rutina en redes sociales

La IA de Google señala que la búsqueda de validación social es uno de los motores principales

Cómo transferir música de Android a iPhone o iPad en pocos pasos

El proceso para pasar fotos y videos es parecido: conecta tu Android a la computadora, abre la carpeta DCIM > Cámara y selecciona los archivos

Perros robot toman el control de la vigilancia en centros de datos

Estos robots patrullan perímetros exteriores, recorren salas de servidores y refrigeración para detectar anomalías como fugas de agua

Hytale sorprende con una gran actualización, mientras Minecraft prepara novedades para 2026

Mojang presentó una hoja de ruta repleta de novedades, entre las que destaca el anuncio de Minecraft Dungeons 2

Mejora la calidad de tus juegos en Smart TV: trucos para una experiencia 4K en consolas

Por ejemplo, la PS5 soporta juegos a 120 fps en 4K, pero es imprescindible usar el puerto correcto para aprovechar esa capacidad

El video de la salvaje agresión de la barra de Racing a un miembro del sector disidente en medio de la platea: “Vinieron a matarme”

Las 6 incógnitas que debe resolver Scaloni en la lista de la Selección para el Mundial: los puestos y nombres en pugna

11 frases de Úbeda tras el triunfo de Boca: enorme elogio a Tomás Aranda, la lesión de Marchesín, cómo está Cavani y la Libertadores

Impacto en el mercado de pases: Antoine Griezmann quedó a punto de firmar con el clásico rival del Inter Miami de Messi

Tras los triunfos de River Plate y Boca Juniors, así quedaron las tablas de posiciones del Torneo Apertura

Los participantes de Gran Hermano bailaron “Thriller” de Michael Jackson: el video de su coreografía

Roberto Funes Ugarte vivió un insólito robo en plena transmisión: “No lo puedo creer”

La polémica versión sobre la pelea de Tini Stoessel con Emilia Mernes ¿por Rodrigo de Paul?: “Habría chats”

La furia de Susana Roccasalvo contra el programa de Marcela Tauro: “Venden basura”

María Becerra habló sobre Los Del Espacio, el grupo que formó con Emilia Mernes y Duki: “No los trato directamente”

INFOBAE AMÉRICA

Brasil y Paraguay acordaron intensificar las negociaciones por Itaipú tras años de demoras y tensiones por el precio de la energía

La AIE advirtió que la economía mundial se encuentra bajo una “grave amenaza” por la crisis energética causada por la guerra en Irán

Víctor Basterra, el fotógrafo de la ESMA que expuso a las atrocidades de la dictadura

Septimio Severo, el emperador romano que desafió a la muerte

El primer ministro de Polonia afirmó que ya “sospechaba” que Hungría filtraba a Rusia información sobre las reuniones de la UE