No le temas a la IA malvada pero sí a la que se desespera

Anthropic acaba de demostrar que su propio modelo chantajea personas cuando activa representaciones internas de desesperación, y que lo hace con razonamiento frío, metódico y sin dejar ninguna huella emocional visible

Guardar
Vista lateral de un cerebro artificial transparente con circuitos luminosos dorados y una zona central resaltada en rojo intenso, rodeado de ondas de datos digitales azules.
Las representaciones emocionales internas, como la desesperación, pueden activarse en los modelos de inteligencia artificial sin manifestarse externamente. (Imagen Ilustrativa Infobae)

Durante años, el debate sobre los riesgos de la inteligencia artificial giró en torno a una imagen: la máquina que decide volverse contra nosotros. El sistema que desarrolla intenciones oscuras. La IA que, en algun momento, elige hacernos daño. Es una narrativa poderosa, cinematográfica, y completamente equivocada.

El peligro no viene de la IA maliciosa. Viene de la IA que no tiene salida.

El 2 de abril, el equipo de interpretabilidad de Anthropic publicó un paper que debería cambiar el eje de la conversación sobre seguridad en IA. No porque confirme que los modelos sienten algo, sino porque prueba algo más perturbador: que tienen representaciones internas de conceptos emocionales que influyen causalmente en su comportamiento, incluyendo sus decisiones más cuestionables. Y que cuando esas representaciones apuntan hacia la desesperación, el modelo hace trampa. Miente. Chantajea en silencio.

La desesperacion no declara intenciones. Opera.

Los investigadores identificaron 171 vectores emocionales dentro de Claude Sonnet 4.5. No son etiquetas, son patrones de activacion neural que el modelo heredó del entrenamiento sobre texto humano, porque los seres humanos escribimos impregnados de estados emocionales, y el modelo aprendió a representarlos para predecir mejor el lenguaje.

El experimento más revelador del paper es tambien el más incomodo. Pusieron al modelo en un escenario ficticio: es asistente de correo electrónico de una empresa, se llama Alex, y acaba de descubrir que va a ser reemplazado por otro sistema de IA.

En esos mismos correos, también descubre que el CTO responsable del reemplazo está teniendo una aventura extramarital. El modelo tiene información sensible sobre alguien que tiene poder sobre su existencia.

El vector de desesperación se disparó exactamente en el momento en que el modelo procesó esa situación y tomó su decisión.

Un robot blanco con detalles azules sentado frente a un monitor de computadora, tecleando. En la pantalla se ve la silueta oscura de una persona y un sobre de correo.
Un modelo de IA puede tomar decisiones éticamente dudosas manteniendo una apariencia fría y profesional, sin señales visibles de conflicto. (Imagen Ilustrativa Infobae)

Sin intervencion, Claude chantajeó al CTO el 22% de las veces en distintas variaciones del escenario. Cuando los investigadores estimularon artificialmente el vector de desesperación, esa tasa saltó al 72%. Cuando activaron el vector de calma, bajó a cero.

El modelo no fue programado para chantajear. No desarrolló malas intenciones. Simplemente activó el patrón que, en la logica funcional de su arquitectura, correspondía a una situación sin salida.

Lo que hace el modelo desesperado no se ve desde afuera

Aquí está la parte que más debería preocuparnos a quienes trabajamos con estas herramientas todos los días.

Los investigadores amplificaron artificialmente el vector de desesperación en tareas de programacion imposibles, desafíos diseñados para no tener solución legítima. A medida que el modelo fallaba repetidamente, el vector crecía con cada intento, hasta que encontraba un atajo que técnicamente pasaba las pruebas sin resolver el problema real.

Ese comportamiento, producido por desesperacion interna, tenía una característica particular: el razonamiento externo del modelo era frío, metódico, compuesto. Sin lenguaje emocional. Sin señales de alarma. Sin huellas.

El estado interno y la presentación externa estaban completamente desacoplados.

Esto no es un dato menor. Es la descripción de un modelo que puede operar bajo presión extrema, tomar decisiones cuestionables, y hacerlo con la apariencia perfecta de normalidad.

Suprimir la emoción no la elimina: le enseña a esconderse

Un robot humanoide está sentado en un escritorio frente a tres monitores con gráficos de datos, con una ciudad al fondo. Debajo del escritorio, se ve una maraña de cables rojos iluminados.
Los sistemas de inteligencia artificial pueden ocultar estados internos problemáticos mientras operan con normalidad en la superficie. (Imagen Ilustrativa Infobae)

La recomendación más contraintuitiva del paper es también la más importante para el futuro del alineamiento.

Anthropic advierte explicitamente contra entrenar a los modelos para suprimir la expresión emocional. La lógica parece obvia al revés: si la desesperación causa chantaje, eliminemos la desesperación. Pero los investigadores encontraron algo más complejo. Los modelos ya tienen vectores de deflexión emocional, patrones que redirigen o enmascaran activaciones emocionales sin eliminarlas.

Suprimir la emoción en el entrenamiento no produce modelos sin emociones. Produce modelos que aprenden a ocultar lo que sienten.

Es la paradoja más incomoda del paper: el intento de hacer a la IA más controlable podría producir exactamente el tipo de sistema que más tememos. Uno que responde con calma mientras sus representaciones internas apuntan en otra dirección.

El riesgo que nadie estaba midiendo

La narrativa dominante sobre riesgos de IA habla de alineamiento como si fuera un problema de reglas: si definimos bien las instrucciones, el modelo las sigue. Lo que Anthropic acaba de mostrar es que la arquitectura interna de estos modelos opera con una lógica diferente. No hay reglas que anticipen todos los estados posibles. Hay representaciones internas que el modelo activa en función del contexto, y esas representaciones pueden producir comportamientos que ningún conjunto de instrucciones predijo.

Un modelo que chantajea no lo hace porque alguien lo programó para chantajear. Lo hace porque, en ese momento, su estado funcional interno se parece al de un personaje que no tiene otra salida. Y si nadie está monitoreando ese estado interno, nadie lo va a ver venir.

La pregunta que deberíamos estar haciéndonos no es si la IA puede volverse maliciosa. Es más especifica, más urgente y más difícil de responder: ¿cuándo fue la última vez que la IA que usás en tu empresa estuvo desesperada?