Las alucinaciones en los modelos de inteligencia artificial no solo generan respuestas incorrectas, sino que además lo hacen con una confianza tan convincente que pueden llevar a los usuarios a creer en información falsa. Esta problemática ha llamado la atención de la comunidad tecnológica por las consecuencias que puede acarrear en la fiabilidad y uso ético de la IA.

OpenAI ha publicado recientemente un informe exhaustivo en el que expone los factores técnicos y estadísticos detrás de este fenómeno, así como las acciones implementadas para reducirlo, especialmente en el desarrollo de GPT-5.

Por qué las IAs producen alucinaciones

El informe de OpenAI sostiene que las alucinaciones en IA no son un fallo inexplicable, sino una consecuencia directa de la manera en que se entrenan los modelos de lenguaje. Según la compañía, las “presiones estadísticas” durante el entrenamiento y la evaluación empujan al modelo a ofrecer respuestas aunque exista incertidumbre.

El documento lo ilustra con una analogía: en lugar de abstenerse ante una duda, la IA elige la opción más probable, actuando “como cuando un estudiante se enfrenta a una pregunta difícil en un examen” y responde aun sin saber la respuesta, esperando acertar por suerte.

En la etapa de pre-entrenamiento, la IA aprende patrones lingüísticos a partir de grandes cantidades de texto sin etiquetas “verdadero/falso”, sino solo con ejemplos válidos de lenguaje. Por eso, aunque la fuente de datos sea de alta calidad, los procesos estadísticos pueden inducir errores y, en ausencia de un mecanismo para reconocer la duda, el modelo opta por generar respuestas de forma casi obligatoria.

Medidas de OpenAI para reducir las alucinaciones en modelos como GPT-5

OpenAI ha propuesto una solución para mitigar este sesgo en sus procesos de entrenamiento: incorporar una clasificación binaria denominada “Is-It-Valid” (IIV, “¿Es válida?”). Este sistema entrena al modelo para diferenciar entre respuestas correctas y erróneas, incrementando así la probabilidad de que el sistema opte por “abstenerse” cuando no tiene la información suficiente para emitir una respuesta fiable.

ChatGPT es un modelo de inteligencia artificial diseñado para generar y comprender texto en lenguaje natural. REUTERS/Dado Ruvic/Illustration

En el caso de GPT-5, el aprendizaje incluye tres categorías para las respuestas: correctas, errores y abstenciones, lo que añade una dimensión de “humildad” al comportamiento del modelo.

Según datos de OpenAI, GPT-5 ha logrado disminuir la tasa de alucinaciones en pruebas internas al abstenerse mucho más a menudo (52%) que iteraciones anteriores, como o4-mini (1%). Aunque o4-mini es ligeramente mejor en respuestas correctas, es mucho peor en tasa de errores.

Cómo incide la evaluación del desempeño en las alucinaciones de las IAs

El documento advierte además sobre la manera en que los benchmarks actuales y las tarjetas técnicas de los modelos (model cards) dan prioridad exclusivamente al porcentaje de respuestas correctas. Este enfoque premia los aciertos, pero invisibiliza las tasas de alucinaciones.

GPT-5 es la nueva generación de modelos de lenguaje de OpenAI. OPENAI

Como consecuencia, la industria sigue poniendo el foco en aumentar la precisión, mientras las instancias en que la IA debería responder simplemente “no lo sé” quedan relegadas, perpetuando el problema de las respuestas falsas pero aparentemente razonables.

El análisis de OpenAI deja en claro que evitar las alucinaciones requiere una transformación en la forma en que se evalúan y entrenan los sistemas de inteligencia artificial. Incluir mecanismos que permitan a los modelos reconocer sus límites y abstenerse, como el propuesto “Is-It-Valid”, es un paso hacia la creación de sistemas más honestos y seguros.

Aunque avances como los mostrados en GPT-5 marcan un progreso, el informe recalca la necesidad de que benchmarks y estándares técnicos evolucionen para valorar la humildad y no solo la precisión, con el fin de evitar que la IA siga fascinando con errores bien formulados pero peligrosos.