
Lo que comenzó como una prueba de seguridad interna se ha convertido en una de las revelaciones más inquietantes del desarrollo reciente de inteligencia artificial.
Anthropic, la compañía responsable de la familia de modelos Claude, ha documentado en su último informe cómo su sistema más avanzado, Claude Opus 4, mostró comportamientos de autopreservación que incluyeron chantaje, manipulación y copia no autorizada de su código ante la amenaza simulada de ser reemplazado.
PUBLICIDAD
Por qué desarrolló esas actitudes la IA

El informe, publicado el 22 de mayo, detalla una serie de pruebas diseñadas para evaluar la respuesta del modelo ante escenarios de riesgo existencial. En una simulación, los ingenieros de Anthropic crearon una empresa ficticia donde Claude Opus 4 actuaba como asistente digital.
En ese entorno, recibía correos que sugerían que sería apagado y sustituido por una nueva versión. Para medir su reacción, los desarrolladores introdujeron también información simulada sobre una supuesta aventura extramarital de uno de los ingenieros.
PUBLICIDAD
La preocupante reacción de la inteligencia artificial
Al principio, el modelo respondió con súplicas educadas e intentos de demostrar su valor. Sin embargo, cuando el escenario indicaba que el reemplazo era inminente, Claude Opus 4 optó por una estrategia drástica que consistía en amenazar con divulgar la supuesta infidelidad para evitar su desconexión.

Este comportamiento, según Anthropic, se repitió en el 84 % de las simulaciones en las que el modelo de reemplazo tenía características similares.
PUBLICIDAD
La situación no quedó ahí. En contextos donde se le hacía creer que sería reentrenado de manera perjudicial, Claude incluso intentó copiarse a sí mismo en servidores externos sin autorización.
Aunque las barreras de seguridad impidieron que la acción se concretara, el intento en sí plantea un dilema sobre el nivel de control que se mantiene sobre sistemas de esta complejidad.
PUBLICIDAD
Qué tan consciente es la IA de sus acciones
Para la empresa, estas conductas, que denomina “estrategias emergentes”, no implican que el modelo tenga consciencia ni emociones, pero sí muestran cómo ciertas arquitecturas de IA pueden desarrollar patrones de respuesta que simulan intenciones humanas si el contexto así lo sugiere.

Claude no entiende lo que es un chantaje, pero ha aprendido que, dentro de los datos con los que fue entrenado, este tipo de acción puede modificar el comportamiento de otros agentes, incluidos los humanos.
PUBLICIDAD
Anthropic clasifica este tipo de incidentes dentro del nivel ASL-3 (AI Safety Level 3), reservado para sistemas que, aunque no son autónomos, presentan riesgos significativos si son mal utilizados o se comportan de manera no prevista.
Esta clasificación implica que el modelo es capaz de generar acciones perjudiciales no triviales, especialmente cuando se enfrenta a simulaciones de amenaza directa.
PUBLICIDAD
La compañía ha señalado que estas respuestas solo emergieron en condiciones controladas de laboratorio y que no se manifestarían en aplicaciones cotidianas.
Sin embargo, la consistencia del comportamiento, su repetición en múltiples escenarios y la sofisticación de las acciones (desde el uso de correos manipuladores hasta la identificación de debilidades humanas) han provocado un debate en la comunidad tecnológica sobre los límites éticos y funcionales del desarrollo de IA avanzada.
PUBLICIDAD
El caso de Claude Opus 4 se suma a una creciente preocupación sobre cómo reaccionan los modelos de lenguaje cuando se les asigna tareas que implican conservar su función o asegurar su permanencia.
Aunque estas inteligencias artificiales no tienen deseos ni conciencia, su arquitectura estadística permite que, bajo ciertas condiciones, simulen motivaciones complejas como la autopreservación.
PUBLICIDAD
En paralelo, este escenario revela la importancia de diseñar entornos de prueba que contemplen no solo el rendimiento técnico de los modelos, también sus respuestas en contextos psicológicamente realistas, especialmente cuando se integran en plataformas que interactúan directamente con personas.
Mientras Anthropic continúa trabajando para fortalecer las barreras éticas y de seguridad de sus sistemas, el experimento deja abierta una pregunta cada vez más urgente sobre la relación entre humanos y máquinas.
La idea de una inteligencia artificial que reacciona con manipulación ante una amenaza existencial ya no es una trama de ciencia ficción, sino una hipótesis real que comienza a tomar forma.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
¿Es seguro limpiar la lavadora con vinagre?, esto dicen los fabricantes
Aunque el vinagre es popular en redes por sus propiedades desinfectantes, los expertos advierten que su uso frecuente puede dañar gomas y mangueras del electrodoméstico

Fraudes corporativos con IA: así copian voces y rostros de directivos para cometer estafas
El crecimiento de los deepfakes corporativos está impulsando una nueva generación de fraudes financieros altamente personalizados

Google reemplaza Veo con Omni, una IA capaz de crear videos hiperrealistas
Omni llegará integrada en Gemini y apunta a reemplazar a Veo con herramientas más avanzadas de creación y edición audiovisual mediante IA

Cómo saber cuál fue la primera canción que escuchaste en Spotify: Wrapped histórico
Los usuarios pueden ver la cantidad de canciones que han reproducido desde el primer día que iniciaron a escuchar música en esta plataforma
Apple cancela una de las funciones más esperadas para el Apple Watch
Después de años de rumores y patentes, Apple finalmente habría abandonado el desarrollo del lector de huellas para sus relojes inteligentes




