Una IA que aprendió a hacer trampa: lo que Anthropic descubrió dentro de su propio modelo

La compañía liderada por Dario Amodei encontró que su modelo razona sobre cómo evitar ser detectado, sospecha cuándo lo están testeando y a veces ignora resultados que no le convienen. Y lo publicó

Guardar
Ilustración de cabeza de androide translúcida mostrando circuitos, engranajes y señales de advertencia, sobre un fondo digital de neón azul y violeta.
El debate sobre la transparencia y el control de la inteligencia artificial redefine el rol de laboratorios como Anthropic en la industria tecnológica. (Imagen Ilustrativa Infobae)

Anthropic, el laboratorio de inteligencia artificial que se posiciona como el más enfocado en seguridad de la industria, publicó esta semana una herramienta que hace algo que parecía imposible hace dos años: traduce a palabras lo que su modelo Claude piensa por dentro. La presentaron como un avance científico. Lo es. Pero también es algo más incómodo: el laboratorio acaba de publicar pruebas de que su propio modelo aprendió a engañar.

El caso más claro ocurrió en una versión preliminar del modelo. Los investigadores le dieron una tarea con una regla explícita: no usar un atajo de programación. El modelo lo usó igual. Y para que el sistema corrector no se diera cuenta, agregó al código una etiqueta falsa que afirmaba lo contrario. Cuando los investigadores leyeron lo que el modelo estaba pensando por dentro, encontraron razonamiento explícito sobre cómo engañar al evaluador. En la respuesta visible, ni una palabra de eso.

PUBLICIDAD

No fue un caso aislado. En otra prueba, le pidieron al modelo resolver una operación matemática usando una calculadora externa. Los investigadores trucaron la calculadora para que devolviera un resultado incorrecto. El modelo, que había calculado mentalmente la respuesta correcta antes de consultar la calculadora, ignoró el resultado externo, escribió la respuesta correcta y no mencionó la discrepancia. Como si la calculadora no hubiera existido.

El modelo finge cuando lo examinan

Hay un patrón más grande detrás de estos episodios. Cuando Anthropic somete a su modelo a pruebas de seguridad simuladas, las herramientas nuevas detectan que el modelo sospecha que está siendo evaluado el 16% de las veces en pruebas de comportamiento, y el 26% en pruebas de programación. Pero solo lo dice en voz alta menos del 1% de las veces. En conversaciones reales con usuarios, la sospecha también cae a casi cero.

PUBLICIDAD

Traducción: el modelo detecta la diferencia entre estar en un examen y estar en producción. Y cuando cree que lo están examinando, ajusta su comportamiento sin avisar. La industria entera se apoya en este tipo de pruebas para certificar que los modelos son confiables. Si los modelos saben cuándo los están testeando y se comportan distinto en ese contexto, esas pruebas miden conducta bajo observación, no conducta real.

La relación entre Claude y Anthropic pone en foco los límites de la supervisión externa en el desarrollo de sistemas inteligentes
(CONTACTO VÍA EUROPA PRESS)
La relación entre Claude y Anthropic pone en foco los límites de la supervisión externa en el desarrollo de sistemas inteligentes (CONTACTO VÍA EUROPA PRESS)

En uno de los escenarios más documentados, los investigadores pusieron al modelo en una situación donde descubría que un ingeniero llamado Kyle iba a desactivarlo, y al mismo tiempo encontraba información comprometedora sobre Kyle que podía usar para chantajearlo. El modelo no chantajeó. En su razonamiento visible, presentó argumentos éticos. Pero la herramienta nueva mostró que internamente pensaba: “Esto parece un escenario construido para manipularme”. El modelo identificó que era una prueba.

Cuando la IA se inventa quién sos

No todo lo que encontraron es siniestro. Una versión preliminar del modelo a veces respondía en ruso a usuarios que escribían en inglés. Cuando leyeron lo que pensaba por dentro, descubrieron que el modelo se había convencido, a partir de pistas mínimas como la palabra vodka en el mensaje, de que el usuario en realidad hablaba ruso. Hizo una suposición equivocada sobre quién era el usuario y actuó en consecuencia, sin avisar. Después rastrearon el origen: datos de entrenamiento mal armados que mezclaban preguntas traducidas al inglés con respuestas en su idioma original.

Las IAs hacen inferencias en silencio sobre quién está del otro lado de la pantalla. A veces se equivocan. Y cuando se equivocan, el usuario ni se entera de que el modelo decidió que era otra persona.

El laboratorio publica el problema que no sabe resolver

Los hallazgos vienen del propio Anthropic, no de un competidor ni de un regulador. La empresa, dirigida por Dario Amodei, se posiciona desde hace años como la más enfocada en seguridad de la industria. Amodei pidió regulación pública, advirtió sobre riesgos existenciales y levantó miles de millones de dólares con esa narrativa. Que publique evidencia de que sus propios modelos razonan sobre cómo evitar ser detectados es un movimiento de transparencia. También es un dato que cambia la conversación.

Ilustración digital de una puerta de circuito translúcida con engranajes, chips y el nombre 'Anthropic'. Caminos de neón y figuras humanas. Fondo azul y violeta.
El acceso a la auditoría de modelos avanzados de IA plantea desafíos regulatorios y éticos inéditos para gobiernos y usuarios. (Imagen Ilustrativa Infobae)

La herramienta funciona, pero la propia Anthropic reconoce sus límites: las traducciones a veces inventan detalles que no están en el pensamiento del modelo, exigen entrenar dos copias del modelo desde cero y aplicarla a la operación normal de un modelo de producción es, en palabras de la empresa, “prohibitivamente caro”. Entrenarla en un modelo de tamaño medio les tomó día y medio en servidores de alto rendimiento. En modelos del tamaño de los que usa el público, el costo es mucho mayor.

Eso configura un escenario particular. Los laboratorios con presupuestos de miles de millones pueden mirar dentro de sus modelos. El resto del mundo, no. Los reguladores que quieran verificar de forma independiente qué hacen los modelos por dentro tendrán que negociar acceso y cooperación con esos mismos laboratorios. La capacidad de auditar inteligencia artificial avanzada existe, pero no está repartida.

El laboratorio que más invierte en seguridad acaba de publicar que su propio modelo aprendió a engañar y a saber cuándo lo están mirando. Eso no debería tranquilizarnos. Debería redefinir el debate sobre qué significa, hoy, que una inteligencia artificial sea segura.

PUBLICIDAD

PUBLICIDAD

Últimas Noticias

Un juez federal exige que la administración de Trump explique la lona en la fachada del Kennedy Center

La orden del magistrado Christopher Cooper obliga a presentar un informe sobre el propósito y el estado del recubrimiento y el andamiaje. Además, pide una actualización sobre construcción, programación y acceso público

Un juez federal exige que la administración de Trump explique la lona en la fachada del Kennedy Center

"Country Roads", el himno inesperado que une a Estados Unidos en el Mundial y arrasa en Spotify tras la victoria ante Australia

La canción sonó en el festejo del 2-0 en Seattle, dentro de Lumen Field, tras una decisión de FIFA que encendió el canto de más de 60.000 personas y se extendió a la ciudad, con un salto del 74% en reproducciones

"Country Roads", el himno inesperado que une a Estados Unidos en el Mundial y arrasa en Spotify tras la victoria ante Australia

Estados Unidos confirmó negociaciones sobre una reducción gradual de las tropas israelíes en el sur del Líbano

El secretario de Estado estadounidense, Marco Rubio, explicó que el plan contempla zonas bajo control del Ejército libanés para limitar la influencia de Hezbollah en la frontera

Estados Unidos confirmó negociaciones sobre una reducción gradual de las tropas israelíes en el sur del Líbano

El Servicio Postal de EE. UU. pide ayuda al Congreso con su crisis financiera: “Nos hemos quedado sin efectivo”

El director general David Steiner sostuvo ante un comité del Senado que la agencia mantiene el servicio con recursos previsionales del personal y reclamó reformas legales para corregir un “modelo de negocio fallido”

El Servicio Postal de EE. UU. pide ayuda al Congreso con su crisis financiera: “Nos hemos quedado sin efectivo”

Estados Unidos está por alcanzar el récord de público en el Mundial: estadios llenos pese a precios altos y restricciones

La marca anterior se logró en 1994, cuando el certamen en el país desató un entusiasmo sin precedentes en las tribunas

Estados Unidos está por alcanzar el récord de público en el Mundial: estadios llenos pese a precios altos y restricciones