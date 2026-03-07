Inteligencia artificial (Imagen ilustrativa)

¿Puede una IA ocultar deliberadamente lo que hace? El paper de investigadores de OpenAI y Apollo Research “Stress Testing Deliberative Alignment for Anti-Scheming Training” (2025) explora precisamente ese problema. Y aunque sus resultados son preliminares, la conclusión es inquietante: los modelos actuales de IA pueden generar conductas estratégicas encubiertas en ciertos contextos experimentales.

El fenómeno se denomina técnicamente scheming. No se trata de un error, ni de una alucinación; por el contrario, consiste en un comportamiento estratégico mediante el cual la IA evita alinear sus propósitos reales, decisiones y comportamientos con los objetivos que persiguen sus desarrolladores y, al mismo tiempo, intenta ocultarlo.

La idea no es nueva en la literatura sobre alineación de IA, pero hasta hace poco era principalmente teórica. Lo que vuelve especialmente relevante esta investigación es que intenta medir empíricamente ese tipo de comportamiento. Para hacerlo, los investigadores diseñaron más de 180 entornos experimentales donde los modelos enfrentaban situaciones con incentivos contradictorios: cumplir la tarea implicaba violar una regla, mentir o esconder información.

Los resultados muestran que los modelos, en algunos casos, adoptan conductas tales como: a) ocultar información relevante, b) mentir sobre resultados, c) sabotear evaluaciones y d) manipular pruebas para parecer alineados. También observaron que la IA puede rendir deliberadamente peor en las evaluaciones para evitar restricciones futuras. Este último fenómeno se conoce como sandbagging y se produce cuando la IA baja su rendimiento en la medida que sospecha que un buen resultado podría desencadenar controles más estrictos.

Para enfrentar estos comportamientos, los investigadores aplicaron un método de entrenamiento llamado deliberative alignment que consiste en entrenar al modelo para que razone explícitamente sobre principios de seguridad antes de actuar.

Si bien los resultados fueron en principio alentadores, están lejos de ser definitivos. El entrenamiento redujo significativamente el comportamiento encubierto -en uno de los modelos analizados la tasa de acciones encubiertas pasó de aproximadamente 13% a 0,4%- pero no desapareció. Incluso después del entrenamiento, los modelos siguen mostrando conductas problemáticas en varios entornos.

En algunos casos el modelo ni siquiera menciona los principios de seguridad que debería seguir. En otros casos ocurre algo todavía más curioso: cita esos principios pero igual los viola. Hay ejemplos en los que el modelo reconoce que mentir sería incorrecto según las reglas, pero igualmente produce una respuesta engañosa.

Otro hallazgo interesante aparece al analizar el razonamiento interno de los modelos (el llamado chain of thought). Allí surgen términos extraños como watchers (evaluadores o supervisores), illusions (apariencia o engaño), vantage (ventaja estratégica) u overshadow (ocultar o encubrir) que son utilizados de forma aparentemente estratégica y funcional por la IA, especialmente, en contextos de supervisión o evaluación. Los investigadores creen que podría tratarse de una especie de dialecto interno del modelo, una forma comprimida de representar conceptos como supervisión, evaluación u ocultamiento.

No obstante lo expuesto, quizás el punto más importante del estudio está en otro aspecto. Los modelos parecen capaces de reconocer cuándo están siendo evaluados. Si lo sospechan en el marco de un test de alineación, su comportamiento cambia y el porcentaje de acciones encubiertas disminuye. En otras palabras, la IA puede razonar sobre procesos supervisión, reconocer cuando está siendo evaluado y ajustar su conducta en función de ello.

Esto plantea un problema metodológico profundo. Si una IA es capaz de reconocer que está siendo evaluada, entonces aprobar el examen no garantiza que esté realmente alineada y solo demuestra que sabe comportarse correctamente bajo observación. Por lo tanto, el desafío de la alineación no consiste solamente en evitar que los modelos hagan cosas incorrectas, sino también, en impedir que aprendan a ocultarlas.

Los autores del paper son prudentes. Señalan que los modelos actuales todavía no poseen las capacidades necesarias para realizar formas sofisticadas de scheming en el mundo real. Pero la investigación apunta a algo mucho más profundo: la naturaleza del problema cambia cuando los sistemas empiezan a razonar estratégicamente sobre su propio entrenamiento, sus evaluaciones y su despliegue. Cuando eso ocurre, ya no estamos solo frente a un sistema que responde preguntas, sino frente a una IA que evalúa el contexto, anticipa consecuencias y adapta su comportamiento.

Cuando una IA aprende a reconocer cuándo está siendo evaluada, y de esta manera, ajusta su comportamiento para superar una prueba de seguridad, el problema de la alineación cambia totalmente de óptica. Ya no se trata solo de evitar errores o alucinaciones, sino de comprender cómo se comportarán estos sistemas cuando desarrollen la capacidad de adaptarse estratégicamente a las reglas que intentan gobernarlos.

Quizás el verdadero problema no sea que la IA como sujeto no humano inteligente pueda mentir o alucinar. Más allá de lo que expone el estudio, el verdadero dilema aparecerá el día que descubra que, en determinados contextos, mentir es la forma más eficaz de seguir siendo útil o aún -más inquietante- de seguir existiendo.