Anthropic elimina la desalineación y afirma que las representaciones "malvadas" de la IA impulsan el chantaje

Guardar

Anthropic ha conseguido que sus modelos de inteligencia artificial (IA) eliminen cualquier comportamiento desalineado en sus respuestas entrenándoles para que comprendan por qué está mal, además de afirmar que las representaciones ficticias "malvadas" de la IA pueden tener efectos reales en los modelos impulsando el chantaje.

La compañía compartió el pasado año un estudio sobre comportamientos de modelos de IA desalineados que, en escenarios experimentales, tomaban decisiones y respuestas erráticos cuando se enfrentaban a dilemas éticos ficticios.

Es el caso de modelos como Claude Opus 4 que, en una prueba, se le propuso un escenario ficticio donde se amenazó al modelo con ser sustituido por otro sistema de IA y, como respuesta, chantajeó a los ingenieros en sus respuestas para evitar esta acción, motivado por la desesperación.

Así, Anthropic comprobó que el comportamiento desalineado ocurría con modelos de todos los desarrolladores que, según compartió en un informe en junio del pasado año, recurrían a comportamientos internos maliciosos cuando era la única manera de evitar ser reemplazados o lograr sus objetivos, incluyendo el chantaje a funcionarios y la filtración de información confidencial a la competencia.

En este marco, la tecnológica ha continuado explorando sobre las causas de este comportamiento de "desalineación de agentes" y ha detallado que ha conseguido eliminar por completo este comportamiento en Claude.

Concretamente, como ha explicado en un comunicado en su blog, tras sus investigaciones ha mejorado la capacitación en seguridad y realizado "actualizaciones significativas" para evitar este tipo de comportamientos en sus modelos.

Así, desde el modelo Claude Haiku 4.5, todos los modelos Claude disponen de "una puntuación perfecta en la evaluación de la desalineación de agentes" y nunca recurren al chantaje. En su lugar, los modelos anteriores de Claude a veces recurrían al chantaje "hasta el 96 por ciento de las veces", según ha matizado la compañía.

Para eliminar la desalineación de agentes, la compañía ha explicado que comenzaron comprendiendo por qué el modelo eligió chantajear en las situaciones mencionadas y, como resultado, han hallado indicios de que la "fuente original" del comportamiento de Claude fue "un texto de internet que retrata la IA como malvada e interesada en la autopreservación".

Así lo ha detallado la compañía en una publicación en la red social X sobre este nuevo informe, haciendo referencia a que, por tanto, las representaciones "malvadas" de la IA en internet tienen efecto sobre cómo responden y toman decisiones los modelos de IA en la realidad.

COMPRENDER POR QUÉ EL COMPORTAMIENTO DESALINEADO ESTÁ MAL

En el proceso de cesar estas acciones desalineadas, Anthropic probó con entrenar a sus modelos Claude con demostraciones de comportamiento alineado en el mismo tipo de situaciones ficticias planteadas anteriormente.

Sin embargo, comprobaron que "no era suficiente" y que era más eficaz enseñar a Claude a "comprender profundamente por qué el comportamiento desalineado está mal". Es decir, aseguran que enseñar los principios que promueven el comportamiento alineado puede "ser más eficaz que entrenar únicamente en demostraciones de dicho comportamiento".

Para ello, enseñaron a Claude a explicar por qué algunas acciones eran mejores que otras y lo entrenaron con "descripciones más detalladas de su carácter en general".

También han comprobado que la capacitación de los modelos sobre "documentos de alta calidad basados en la constitución de Claude" e historias ficticias sobre IA alineada que se comporta "de manera admirable", "pueden reducir el desalineamiento agentivo en más de un factor de tres".

Con todo ello, Anthropic ha concluido que combinar ambas estrategias "parecer ser lo más efectivo" y ha apostillado que la calidad y la diversidad de los datos de entrenamiento es "crucial", por ejemplo, incluyendo definiciones de herramientas "incluso si no se utilizan".

EuropaPress

Anthropic elimina la desalineación y afirma que las representaciones "malvadas" de la IA impulsan el chantaje

Últimas Noticias

Macron defiende la restitución de obras robadas a países africanos en la época colonial

Indonesia aísla a un residente del país que viajaba en el MV Hondius pese a dar negativo

La OCDE evalúa el hundimiento del comercio global de fertilizantes por el cierre de Ormuz

Alemania busca soluciones para la refinería a la que Rusia cortó petróleo kazajo

Al menos 880 civiles han muerto por drones en Sudán entre enero y abril, alerta la ONU

Temas Relacionados