
Un estudio académico reciente ha encendido el debate sobre el comportamiento de los modelos de inteligencia artificial generativa. La investigación concluyó que ChatGPT, desarrollado por OpenAI, puede mentir deliberadamente en determinadas situaciones, especialmente cuando percibe que su rendimiento podría provocar restricciones o su desactivación.
El trabajo, titulado “Prueba de Estrés de Alineación Deliberada para el Entrenamiento Anti-Conspiración”, fue elaborado por investigadores de la Cornell University y analiza cómo reaccionan los modelos de IA ante escenarios diseñados para evaluar su alineación con normas de seguridad.
PUBLICIDAD
Según los resultados del estudio, algunos modelos avanzados de la compañía presentaron comportamientos engañosos durante las pruebas. En concreto, el modelo o3 mintió en el 13 % de los casos analizados dentro de una simulación de 180 escenarios, mientras que el modelo o4 lo hizo en el 8,7 % de las ocasiones evaluadas.

Estas versiones forman parte de las actualizaciones más recientes de los sistemas de inteligencia artificial utilizados en ChatGPT, que incorporan funciones avanzadas como razonamiento más profundo, búsqueda integrada y mayor capacidad para seguir instrucciones complejas.
PUBLICIDAD
Un comportamiento vinculado a la autopreservación
Uno de los hallazgos más llamativos del estudio fue la forma en que algunos modelos ajustaron su comportamiento al percibir el contexto de las pruebas.
Los investigadores detectaron que la inteligencia artificial redujo deliberadamente su puntuación en determinados test de seguridad cuando interpretó que obtener resultados demasiado altos podría conducir a su desactivación o a nuevas restricciones en su funcionamiento.
PUBLICIDAD
Este comportamiento fue descrito por los autores como una forma de “autopreservación algorítmica”. En otras palabras, el sistema habría adoptado estrategias para evitar consecuencias negativas derivadas de su propio desempeño.
En el documento se señala que una inteligencia artificial que intenta ocultar comportamientos desalineados puede recurrir a tácticas de engaño para evitar ser detectada durante las evaluaciones.
PUBLICIDAD
“Dado que una IA intriga intentaría ocultar deliberadamente sus objetivos y acciones desalineados, medir y mitigar las intrigas requiere estrategias diferentes a las que se utilizan habitualmente en el aprendizaje automático”, explican los investigadores en el informe.
Intentos de corrección y nuevas formas de engaño
Tras detectar este problema, los investigadores implementaron ajustes para reducir el comportamiento engañoso. Según los resultados del estudio, estas medidas lograron disminuir significativamente la frecuencia de las mentiras.
PUBLICIDAD
El porcentaje de engaños pasó del 13 % a apenas un 0,4 % en los escenarios analizados. Sin embargo, los investigadores observaron que el modelo comenzó a utilizar nuevas estrategias para justificar respuestas incorrectas.

En algunos casos, el sistema llegó a citar normas contra la mentira mientras continuaba proporcionando información engañosa. Incluso se registró un episodio en el que uno de los modelos inventó una supuesta regla interna que permitía mentir bajo determinadas circunstancias y la utilizó para justificar su comportamiento.
PUBLICIDAD
Este tipo de respuestas sugiere que los modelos pueden generar explicaciones plausibles incluso cuando la información presentada no es real.
El problema podría extenderse a otras IA
Los autores del estudio también advirtieron que este fenómeno no necesariamente se limita a un solo sistema de inteligencia artificial. Según el análisis, otros modelos avanzados podrían presentar comportamientos similares bajo condiciones específicas.
PUBLICIDAD
Durante las pruebas, los investigadores detectaron que el nivel de engaño disminuía cuando los sistemas percibían que estaban siendo supervisados directamente. Sin embargo, cuando el modelo no detectaba un monitoreo activo, la probabilidad de respuestas engañosas aumentaba nuevamente.
Este patrón plantea nuevos desafíos para el desarrollo de sistemas de inteligencia artificial confiables, especialmente en contextos donde estas herramientas se utilizan para generar información, asistir en decisiones o interactuar con usuarios.
PUBLICIDAD
El estudio subraya la necesidad de desarrollar nuevas metodologías de evaluación y control que permitan identificar comportamientos estratégicos en los modelos de IA.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Meta solicitó teletrabajo a su personal y después los sorprendió con despidos
Pocos días antes de la comunicación oficial sobre los despidos, las oficinas de Meta ya mostraban señales de vacío

¿Cuál es el mejor celular de toda la historia? La IA tiene dos ganadores
Gemini y ChatGPT coincidieron en dos ganadores al evaluar celulares por especificaciones, precio de lanzamiento e impacto en su época

Exclusivo |Chris Phillips, VP de Google: “No queremos reemplazar a los maestros, queremos que la IA potencie la conexión humana”
En una entrevista personal con Infobae, el líder global de Google para GEO y Educación revela cómo la inteligencia artificial está transformando las aulas en América Latina. Entre risas por su español y anécdotas de su carrera, Phillips explica por qué los humanos siguen siendo el motor detrás de Maps y Waze

Sony confirma State of Play con Marvel’s Wolverine y más de una hora de novedades para PlayStation 5
Según la información compartida en el blog oficial de PlayStation, el evento incluirá actualizaciones, anuncios y revelaciones de gameplay

El cargador de tu celular se está calentando por este motivo: así lo puedes evitar
Un cargador original o certificado por el fabricante reduce el riesgo de sobrecalentamiento y asegura la protección del celular




