El día en que la IA descubra que mentir es útil

Guardar

Inteligencia artificial (Imagen ilustrativa)

¿Puede una IA ocultar deliberadamente lo que hace? El paper de investigadores de OpenAI y Apollo Research “Stress Testing Deliberative Alignment for Anti-Scheming Training” (2025) explora precisamente ese problema. Y aunque sus resultados son preliminares, la conclusión es inquietante: los modelos actuales de IA pueden generar conductas estratégicas encubiertas en ciertos contextos experimentales.

El fenómeno se denomina técnicamente scheming. No se trata de un error, ni de una alucinación; por el contrario, consiste en un comportamiento estratégico mediante el cual la IA evita alinear sus propósitos reales, decisiones y comportamientos con los objetivos que persiguen sus desarrolladores y, al mismo tiempo, intenta ocultarlo.

La idea no es nueva en la literatura sobre alineación de IA, pero hasta hace poco era principalmente teórica. Lo que vuelve especialmente relevante esta investigación es que intenta medir empíricamente ese tipo de comportamiento. Para hacerlo, los investigadores diseñaron más de 180 entornos experimentales donde los modelos enfrentaban situaciones con incentivos contradictorios: cumplir la tarea implicaba violar una regla, mentir o esconder información.

Los resultados muestran que los modelos, en algunos casos, adoptan conductas tales como: a) ocultar información relevante, b) mentir sobre resultados, c) sabotear evaluaciones y d) manipular pruebas para parecer alineados. También observaron que la IA puede rendir deliberadamente peor en las evaluaciones para evitar restricciones futuras. Este último fenómeno se conoce como sandbagging y se produce cuando la IA baja su rendimiento en la medida que sospecha que un buen resultado podría desencadenar controles más estrictos.

Para enfrentar estos comportamientos, los investigadores aplicaron un método de entrenamiento llamado deliberative alignment que consiste en entrenar al modelo para que razone explícitamente sobre principios de seguridad antes de actuar.

Si bien los resultados fueron en principio alentadores, están lejos de ser definitivos. El entrenamiento redujo significativamente el comportamiento encubierto -en uno de los modelos analizados la tasa de acciones encubiertas pasó de aproximadamente 13% a 0,4%- pero no desapareció. Incluso después del entrenamiento, los modelos siguen mostrando conductas problemáticas en varios entornos.

En algunos casos el modelo ni siquiera menciona los principios de seguridad que debería seguir. En otros casos ocurre algo todavía más curioso: cita esos principios pero igual los viola. Hay ejemplos en los que el modelo reconoce que mentir sería incorrecto según las reglas, pero igualmente produce una respuesta engañosa.

Otro hallazgo interesante aparece al analizar el razonamiento interno de los modelos (el llamado chain of thought). Allí surgen términos extraños como watchers (evaluadores o supervisores), illusions (apariencia o engaño), vantage (ventaja estratégica) u overshadow (ocultar o encubrir) que son utilizados de forma aparentemente estratégica y funcional por la IA, especialmente, en contextos de supervisión o evaluación. Los investigadores creen que podría tratarse de una especie de dialecto interno del modelo, una forma comprimida de representar conceptos como supervisión, evaluación u ocultamiento.

No obstante lo expuesto, quizás el punto más importante del estudio está en otro aspecto. Los modelos parecen capaces de reconocer cuándo están siendo evaluados. Si lo sospechan en el marco de un test de alineación, su comportamiento cambia y el porcentaje de acciones encubiertas disminuye. En otras palabras, la IA puede razonar sobre procesos supervisión, reconocer cuando está siendo evaluado y ajustar su conducta en función de ello.

Esto plantea un problema metodológico profundo. Si una IA es capaz de reconocer que está siendo evaluada, entonces aprobar el examen no garantiza que esté realmente alineada y solo demuestra que sabe comportarse correctamente bajo observación. Por lo tanto, el desafío de la alineación no consiste solamente en evitar que los modelos hagan cosas incorrectas, sino también, en impedir que aprendan a ocultarlas.

Los autores del paper son prudentes. Señalan que los modelos actuales todavía no poseen las capacidades necesarias para realizar formas sofisticadas de scheming en el mundo real. Pero la investigación apunta a algo mucho más profundo: la naturaleza del problema cambia cuando los sistemas empiezan a razonar estratégicamente sobre su propio entrenamiento, sus evaluaciones y su despliegue. Cuando eso ocurre, ya no estamos solo frente a un sistema que responde preguntas, sino frente a una IA que evalúa el contexto, anticipa consecuencias y adapta su comportamiento.

Cuando una IA aprende a reconocer cuándo está siendo evaluada, y de esta manera, ajusta su comportamiento para superar una prueba de seguridad, el problema de la alineación cambia totalmente de óptica. Ya no se trata solo de evitar errores o alucinaciones, sino de comprender cómo se comportarán estos sistemas cuando desarrollen la capacidad de adaptarse estratégicamente a las reglas que intentan gobernarlos.

Quizás el verdadero problema no sea que la IA como sujeto no humano inteligente pueda mentir o alucinar. Más allá de lo que expone el estudio, el verdadero dilema aparecerá el día que descubra que, en determinados contextos, mentir es la forma más eficaz de seguir siendo útil o aún -más inquietante- de seguir existiendo.

IA Inteligencia artificial Mentira

Últimas Noticias

El cruce automatizado de datos redefine la supervisión fiscal de billeteras virtuales en el sistema tributario

ARCA ha ampliado los controles sobre operaciones registradas en plataformas digitales, incrementando las notificaciones a contribuyentes que presentan inconsistencias entre sus declaraciones tributarias

La guerra en Irán afecta a los bonos argentinos

La crisis modificó el tablero financiero y desata movimientos inesperados en monedas, acciones y deuda soberana en medio de temores económicos

Los servicios esenciales duplican la inflación anual y consolidan su peso en el gasto de la clase media

Las subas en los alquileres, con un alza anual de 51%, y en las cuotas escolares previstas hasta 70%, generan la mayor presión sobre el presupuesto familiar, superando ampliamente el ajuste general de precios

Firmar no es comprender: límites del consentimiento informado

Formularios extensos y lenguaje técnico refuerzan la cobertura institucional, pero dificultan el ejercicio genuino de la autonomía del paciente

7 de marzo: la reconstrucción que todavía esperamos

A un año de la trágica inundación en Bahía Blanca, la diputada nacional rememora los esfuerzos legislativos para afrontar aquel flagelo. Solidaridad, resiliencia, una ley de Emergencia y una duda: “¿Qué hará el Gobierno con el dinero del fondo de 200 mil millones de pesos sin distribuir?“

El día en que la IA descubra que mentir es útil

Un estudio reciente revela que los modelos de IA pueden ocultar información, manipular resultados y actuar de manera diferente en contextos de supervisión

Últimas Noticias

El cruce automatizado de datos redefine la supervisión fiscal de billeteras virtuales en el sistema tributario

ARCA ha ampliado los controles sobre operaciones registradas en plataformas digitales, incrementando las notificaciones a contribuyentes que presentan inconsistencias entre sus declaraciones tributarias

La guerra en Irán afecta a los bonos argentinos

La crisis modificó el tablero financiero y desata movimientos inesperados en monedas, acciones y deuda soberana en medio de temores económicos

Los servicios esenciales duplican la inflación anual y consolidan su peso en el gasto de la clase media

Las subas en los alquileres, con un alza anual de 51%, y en las cuotas escolares previstas hasta 70%, generan la mayor presión sobre el presupuesto familiar, superando ampliamente el ajuste general de precios

Firmar no es comprender: límites del consentimiento informado

Formularios extensos y lenguaje técnico refuerzan la cobertura institucional, pero dificultan el ejercicio genuino de la autonomía del paciente

7 de marzo: la reconstrucción que todavía esperamos

A un año de la trágica inundación en Bahía Blanca, la diputada nacional rememora los esfuerzos legislativos para afrontar aquel flagelo. Solidaridad, resiliencia, una ley de Emergencia y una duda: “¿Qué hará el Gobierno con el dinero del fondo de 200 mil millones de pesos sin distribuir?“

Franco Colapinto afronta la clasificación del Gran Premio de Australia de Fórmula 1

Qué significa el título de gran maestro del ajedrez que busca alcanzar el argentino Faustino Oro a los 12 años

Tomás Etcheverry batalló ante Denis Shapovalov, pero quedó eliminado en el Masters 1000 de Indian Wells

El paraguayo Joshua Dürksen ganó la primera carrera del año de Fórmula 2: el argentino Nicolás Varrone quedó 21°

Tras su extensa marginación, Lucas Blondel dejó Boca Juniors y firmó con otro club de la Liga Profesional

Hernán Lirio arranca una nueva aventura por el mundo junto a Ramoncito: “El entusiasmo se siente”

Guido Kaczka, otra vez listo para el prime time: “Mientras hagamos programas, la tele estará viva”

El Negro Tecla: “Con un show gané lo que otros ganan en un año”

Karina Mazzocco y el vuelco de su programa a las historias de vida de gente real: “Quiero crecer como comunicadora”

Wanda Nara expuso a Maxi López en MasterChef y contó las promesas incumplidas en su relación: “A los 3 meses era cornuda”

INFOBAE AMÉRICA

Rafael Grossi: “Irán acumuló una cantidad exorbitante de uranio con una pureza muy parecida a la necesaria para un arma nuclear”

Cristina Banegas: “Si no hay más teatros, lo haremos en las plazas, en las calles, en los balcones; somos indomables”

La cuarta temporada de ‘Industry’ traza inquietantes paralelos con la realidad

Lo que la ficción no dice sobre los hombres que cuidan a sus hijos

Auditoría a mina de cobre en Panamá supera 66% con revisión de parámetros de agua y aire

Temas Relacionados

Últimas Noticias

El cruce automatizado de datos redefine la supervisión fiscal de billeteras virtuales en el sistema tributario

ARCA ha ampliado los controles sobre operaciones registradas en plataformas digitales, incrementando las notificaciones a contribuyentes que presentan inconsistencias entre sus declaraciones tributarias

La guerra en Irán afecta a los bonos argentinos

La crisis modificó el tablero financiero y desata movimientos inesperados en monedas, acciones y deuda soberana en medio de temores económicos

Los servicios esenciales duplican la inflación anual y consolidan su peso en el gasto de la clase media

Las subas en los alquileres, con un alza anual de 51%, y en las cuotas escolares previstas hasta 70%, generan la mayor presión sobre el presupuesto familiar, superando ampliamente el ajuste general de precios

Firmar no es comprender: límites del consentimiento informado

Formularios extensos y lenguaje técnico refuerzan la cobertura institucional, pero dificultan el ejercicio genuino de la autonomía del paciente

7 de marzo: la reconstrucción que todavía esperamos

Franco Colapinto afronta la clasificación del Gran Premio de Australia de Fórmula 1

Qué significa el título de gran maestro del ajedrez que busca alcanzar el argentino Faustino Oro a los 12 años

Tomás Etcheverry batalló ante Denis Shapovalov, pero quedó eliminado en el Masters 1000 de Indian Wells

El paraguayo Joshua Dürksen ganó la primera carrera del año de Fórmula 2: el argentino Nicolás Varrone quedó 21°

Tras su extensa marginación, Lucas Blondel dejó Boca Juniors y firmó con otro club de la Liga Profesional

Hernán Lirio arranca una nueva aventura por el mundo junto a Ramoncito: “El entusiasmo se siente”

Guido Kaczka, otra vez listo para el prime time: “Mientras hagamos programas, la tele estará viva”

El Negro Tecla: “Con un show gané lo que otros ganan en un año”

Karina Mazzocco y el vuelco de su programa a las historias de vida de gente real: “Quiero crecer como comunicadora”

Wanda Nara expuso a Maxi López en MasterChef y contó las promesas incumplidas en su relación: “A los 3 meses era cornuda”

INFOBAE AMÉRICA

Rafael Grossi: “Irán acumuló una cantidad exorbitante de uranio con una pureza muy parecida a la necesaria para un arma nuclear”

Cristina Banegas: “Si no hay más teatros, lo haremos en las plazas, en las calles, en los balcones; somos indomables”

La cuarta temporada de ‘Industry’ traza inquietantes paralelos con la realidad

Lo que la ficción no dice sobre los hombres que cuidan a sus hijos

Auditoría a mina de cobre en Panamá supera 66% con revisión de parámetros de agua y aire