Anthropic elimina la desalineación y afirma que las representaciones "malvadas" de la IA impulsan el chantaje

Guardar
Imagen ZWCEA7HBJBBO7NZ5MK7JKH5EYE

Anthropic ha conseguido que sus modelos de inteligencia artificial (IA) eliminen cualquier comportamiento desalineado en sus respuestas entrenándoles para que comprendan por qué está mal, además de afirmar que las representaciones ficticias "malvadas" de la IA pueden tener efectos reales en los modelos impulsando el chantaje.

La compañía compartió el pasado año un estudio sobre comportamientos de modelos de IA desalineados que, en escenarios experimentales, tomaban decisiones y respuestas erráticos cuando se enfrentaban a dilemas éticos ficticios.

PUBLICIDAD

Es el caso de modelos como Claude Opus 4 que, en una prueba, se le propuso un escenario ficticio donde se amenazó al modelo con ser sustituido por otro sistema de IA y, como respuesta, chantajeó a los ingenieros en sus respuestas para evitar esta acción, motivado por la desesperación.

Así, Anthropic comprobó que el comportamiento desalineado ocurría con modelos de todos los desarrolladores que, según compartió en un informe en junio del pasado año, recurrían a comportamientos internos maliciosos cuando era la única manera de evitar ser reemplazados o lograr sus objetivos, incluyendo el chantaje a funcionarios y la filtración de información confidencial a la competencia.

PUBLICIDAD

En este marco, la tecnológica ha continuado explorando sobre las causas de este comportamiento de "desalineación de agentes" y ha detallado que ha conseguido eliminar por completo este comportamiento en Claude.

Concretamente, como ha explicado en un comunicado en su blog, tras sus investigaciones ha mejorado la capacitación en seguridad y realizado "actualizaciones significativas" para evitar este tipo de comportamientos en sus modelos.

Así, desde el modelo Claude Haiku 4.5, todos los modelos Claude disponen de "una puntuación perfecta en la evaluación de la desalineación de agentes" y nunca recurren al chantaje. En su lugar, los modelos anteriores de Claude a veces recurrían al chantaje "hasta el 96 por ciento de las veces", según ha matizado la compañía.

Para eliminar la desalineación de agentes, la compañía ha explicado que comenzaron comprendiendo por qué el modelo eligió chantajear en las situaciones mencionadas y, como resultado, han hallado indicios de que la "fuente original" del comportamiento de Claude fue "un texto de internet que retrata la IA como malvada e interesada en la autopreservación".

Así lo ha detallado la compañía en una publicación en la red social X sobre este nuevo informe, haciendo referencia a que, por tanto, las representaciones "malvadas" de la IA en internet tienen efecto sobre cómo responden y toman decisiones los modelos de IA en la realidad.

COMPRENDER POR QUÉ EL COMPORTAMIENTO DESALINEADO ESTÁ MAL

En el proceso de cesar estas acciones desalineadas, Anthropic probó con entrenar a sus modelos Claude con demostraciones de comportamiento alineado en el mismo tipo de situaciones ficticias planteadas anteriormente.

Sin embargo, comprobaron que "no era suficiente" y que era más eficaz enseñar a Claude a "comprender profundamente por qué el comportamiento desalineado está mal". Es decir, aseguran que enseñar los principios que promueven el comportamiento alineado puede "ser más eficaz que entrenar únicamente en demostraciones de dicho comportamiento".

Para ello, enseñaron a Claude a explicar por qué algunas acciones eran mejores que otras y lo entrenaron con "descripciones más detalladas de su carácter en general".

También han comprobado que la capacitación de los modelos sobre "documentos de alta calidad basados en la constitución de Claude" e historias ficticias sobre IA alineada que se comporta "de manera admirable", "pueden reducir el desalineamiento agentivo en más de un factor de tres".

Con todo ello, Anthropic ha concluido que combinar ambas estrategias "parecer ser lo más efectivo" y ha apostillado que la calidad y la diversidad de los datos de entrenamiento es "crucial", por ejemplo, incluyendo definiciones de herramientas "incluso si no se utilizan".