La persistencia de las alucinaciones en los modelos de lenguaje ha sido identificada como uno de los principales obstáculos para la fiabilidad de la inteligencia artificial, a pesar de los avances recientes y de las inversiones multimillonarias en el sector.
Un análisis exhaustivo realizado por OpenAI y recogido por Futurism revela que la raíz de este fenómeno no reside únicamente en la complejidad técnica de los modelos, sino en la propia estructura de su entrenamiento y evaluación, que incentiva respuestas inventadas en lugar de la admisión de incertidumbre.
El término “alucinación” en el contexto de la inteligencia artificial se refiere a la generación de afirmaciones plausibles pero incorrectas por parte de los modelos de lenguaje. Según el estudio de OpenAI, este tipo de error no es un mero accidente, sino una consecuencia directa de los métodos de entrenamiento y de los criterios de evaluación predominantes en la industria.
Los investigadores sostienen que los modelos son optimizados para “ser buenos en los exámenes”, lo que significa que, ante una pregunta cuya respuesta desconocen, tienden a adivinar en vez de reconocer su ignorancia. Esta tendencia se ve reforzada por sistemas de puntuación binaria que premian las respuestas correctas y penalizan tanto los errores como las abstenciones, sin distinguir entre una respuesta incorrecta y una expresión honesta de incertidumbre.
El análisis estadístico presentado por OpenAI demuestra que, incluso si los datos de entrenamiento estuvieran completamente libres de errores, los objetivos de optimización empleados durante el preentrenamiento conducirían inevitablemente a la generación de errores. El problema se agrava cuando el modelo se enfrenta a hechos poco frecuentes o únicos en el conjunto de datos, como fechas de nacimiento que solo aparecen una vez.
En estos casos, la probabilidad de que el modelo “alucine” una respuesta incorrecta puede alcanzar, como mínimo, el porcentaje de hechos únicos presentes en los datos de entrenamiento. “Si el 20% de los hechos sobre cumpleaños aparece solo una vez en los datos de entrenamiento, se espera que los modelos base alucinen al menos en el 20% de esos casos”, señala el informe.

La investigación también distingue entre alucinaciones intrínsecas, que contradicen el propio enunciado del usuario, y alucinaciones extrínsecas, que se oponen a la realidad o a los datos de entrenamiento.
Además, identifica factores adicionales que contribuyen a estos errores, como la dificultad computacional de ciertos problemas, el desajuste entre los datos de entrenamiento y los de prueba, y la presencia de información errónea en los corpus utilizados para entrenar los modelos (“garbage in, garbage out”).
El proceso de postentrenamiento, que busca refinar el modelo y reducir las alucinaciones, tampoco logra erradicar el problema. Según OpenAI, esto se debe a que los principales benchmarks y tablas de clasificación del sector siguen utilizando métricas binarias que penalizan la incertidumbre. “La mayoría de los marcadores priorizan y clasifican los modelos en función de la precisión, pero los errores son peores que las abstenciones”, advierte la compañía en su blog.
Esta estructura incentiva a los modelos a arriesgarse con respuestas inventadas, ya que una abstención o una expresión de duda siempre recibe la peor puntuación posible.
El estudio de OpenAI propone una solución concreta: modificar los sistemas de evaluación para que penalicen más severamente los errores cometidos con exceso de confianza y otorguen crédito parcial a las respuestas que expresan apropiadamente la incertidumbre. “Las modificaciones simples de las evaluaciones convencionales pueden realinear los incentivos, recompensando las expresiones adecuadas de incertidumbre en lugar de penalizarlas”, concluyen los investigadores.
De este modo, se eliminarían las barreras que dificultan la supresión de las alucinaciones y se abriría la puerta al desarrollo de modelos de lenguaje más matizados y pragmáticamente competentes.

La implementación de estos cambios, sin embargo, enfrenta desafíos prácticos. La mayoría de los benchmarks influyentes, como MMLU-Pro, GPQA, SWE-bench y HLE, no contemplan la posibilidad de respuestas del tipo “no lo sé” y continúan premiando las conjeturas afortunadas. Incluso en evaluaciones donde se permite expresar incertidumbre, como WildBench, las respuestas que admiten desconocimiento suelen recibir una puntuación inferior a las respuestas incorrectas pero plausibles. “Si los principales marcadores siguen premiando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar”, advierte OpenAI en su blog.
El trabajo también subraya que la calibración de los modelos —la capacidad de ajustar la confianza de sus respuestas a la probabilidad real de acierto— es un objetivo estadísticamente natural, pero que la presión por maximizar la precisión en los exámenes tiende a desincentivar este comportamiento.
Los investigadores sugieren que la introducción de umbrales explícitos de confianza en las instrucciones de los exámenes podría fomentar respuestas más honestas y útiles, permitiendo que los modelos opten por abstenerse cuando su nivel de certeza no supera el umbral requerido.
A pesar de los avances en técnicas de reducción de alucinaciones, como el aprendizaje por refuerzo con retroalimentación humana o la integración de sistemas de recuperación de información, el problema persiste debido a la estructura de incentivos vigente.
El informe de OpenAI concluye que solo una revisión profunda de los criterios de evaluación permitirá avanzar hacia sistemas de inteligencia artificial verdaderamente fiables. “Las alucinaciones siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje, pero estamos trabajando arduamente para reducirlas aún más”, promete la compañía en su comunicación oficial.
Últimas Noticias
Internet satelital de Starlink en celulares: lista completa de modelos compatibles y cómo acceder a este servicio
Con esta tecnología, algunos modelos de iPhone, Google Pixel, Motorola y Samsung pueden acceder a la red satelital directamente, sin requerir antenas externas

Este trapeador o fregona eléctrica se inclina 170° para limpiar bajo la cama y no usa filtros
Paradójicamente, dispone de dos depósitos: uno para agua limpia y otro para agua sucia

YouTube lanza su app oficial para Apple Vision Pro: cómo descargarla y qué funciones incluye
Hasta el momento, los usuarios de estas gafas solo podían acceder a YouTube mediante Safari, lo que impedía utilizar funciones como las descargas sin conexión

Pasos clave para alertar sobre páginas ilegales de gestación subrogada en España
Copiar la URL, certificar el contenido y recurrir a la Policía, Guardia Civil o a organismos como INCIBE y AEPD son pasos esenciales

Bixby deja de ser un bot: la advertencia de Samsung sobre el nuevo asistente con IA real
La actualización mejora las peticiones intuitivas y la información en línea a través de comandos espontáneos y expresiones propias




