Cuidado con las ‘alucinaciones’: la inteligencia artificial que más falla al dar datos y la que es casi infalible

Los modelos más avanzados de Gemini encabezan un ranking de precisión elaborado por Artificial Analysis

Guardar
Un estudio revela qué inteligencia
Un estudio revela qué inteligencia artificial se equivoca más y cuál tiene las respuestas más precisas.

Los asistentes conversacionales impulsados por inteligencia artificial se han convertido en una de las herramientas digitales más utilizadas para buscar información, redactar textos o resolver preguntas en segundos. Sin embargo, a medida que su uso crece, también surge una duda cada vez más frecuente entre los usuarios: cuál de estos sistemas ofrece respuestas más precisas y cuál tiene mayor riesgo de equivocarse.

Un análisis reciente del laboratorio independiente Artificial Analysis comparó el desempeño de varios modelos avanzados de inteligencia artificial para evaluar su capacidad de razonamiento y su nivel de precisión. Los resultados muestran que los modelos más recientes de Gemini lideran actualmente los rankings de confiabilidad, seguidos por sistemas desarrollados para Claude y ChatGPT.

El estudio utiliza distintos indicadores técnicos para medir el rendimiento de los chatbots. Uno de los principales es el Omniscience Index, que evalúa la confiabilidad de las respuestas generadas por los modelos. Este índice premia las respuestas correctas, penaliza las incorrectas y no castiga cuando el sistema decide no responder una pregunta.

Los modelos más avanzados de
Los modelos más avanzados de Gemini han demostrado tener mejores respuestas. (Google)

En este ranking, el modelo Gemini 3.1 Pro Preview obtuvo la puntuación más alta, con 33 puntos. Detrás aparecen modelos avanzados como Claude Opus 4.6 y otros sistemas experimentales desarrollados por distintos laboratorios.

El fenómeno de las “alucinaciones” en la IA

Uno de los problemas más discutidos en el desarrollo de la inteligencia artificial generativa es el fenómeno conocido como alucinación. Este término describe situaciones en las que un modelo genera información incorrecta o inexistente, pero lo hace con aparente seguridad.

Las alucinaciones pueden aparecer cuando el sistema intenta responder preguntas con información incompleta, ambigua o cuando el modelo extrapola datos sin suficiente contexto.

ChatGPT alcanzó a ser la
ChatGPT alcanzó a ser la IA más popular tras su lanzamiento. (Foto: OpenAI)

Para los usuarios que utilizan estos chatbots para estudiar, investigar o trabajar, este comportamiento puede representar un riesgo si las respuestas no se verifican con otras fuentes.

Una competencia cada vez más intensa

Durante varios años, ChatGPT dominó ampliamente el mercado de los chatbots conversacionales. Sin embargo, la aparición de nuevos competidores ha intensificado la competencia entre las grandes empresas tecnológicas.

Uno de los casos más destacados es el de Claude, el asistente desarrollado por la empresa Anthropic. El 1 de marzo de 2026, la aplicación alcanzó el primer lugar entre las apps gratuitas de la App Store después de escalar desde el sexto puesto en apenas cuatro días.

En los últimos años, Claude
En los últimos años, Claude viene sobresaliendo y perfilándose como una de las mejores IA. (X: claudeai)

Según datos recientes, Claude registra alrededor de 18,9 millones de usuarios en su versión web y cerca de 2,9 millones en dispositivos móviles. Además, el número de usuarios gratuitos aumentó más de un 60% desde enero de 2026.

A pesar de este crecimiento, la escala global de ChatGPT sigue siendo considerablemente mayor. El asistente cuenta con cerca de 800 millones de usuarios activos semanales y más de 1.000 millones de consultas diarias, lo que lo convierte en el chatbot más utilizado del mundo.

Los modelos con mayor capacidad de razonamiento

Además de medir la precisión, el análisis también evalúa la capacidad de los sistemas para resolver problemas complejos. Para ello se utiliza el Artificial Analysis Intelligence Index, que mide habilidades como razonamiento lógico, comprensión de preguntas técnicas y manejo de información especializada.

Gemini y ChatGPT son las
Gemini y ChatGPT son las IA más usadas por los usuarios. (Composición Infobae)

En este ranking aparecen varios de los modelos más avanzados de la industria, incluyendo versiones recientes de Gemini, sistemas GPT y modelos de Claude.

Los resultados muestran que el modelo Gemini 3.1 Pro Preview comparte el primer lugar con GPT-5.4, ambos con 57 puntos. Detrás aparecen otros modelos como GPT-5.3, Claude Opus 4.6 y Claude Sonnet 4.6.

Los sistemas que más se equivocan

El estudio también identifica modelos con niveles más bajos de precisión. Algunos obtienen puntuaciones negativas en el Omniscience Index, lo que indica que generan más respuestas incorrectas que correctas.

Entre los sistemas con peor desempeño dentro de este análisis aparecen modelos como gpt-oss-20B, K-EXAONE y Mi:dm K2.5 Pro.

Algunos modelos GTP han sido
Algunos modelos GTP han sido calificados como los más ineficientes. REUTERS/Dado Ruvic/Illustration/File Photo

Estos resultados reflejan las diferencias de calidad que todavía existen entre distintos desarrollos de inteligencia artificial.

Ningún sistema es completamente infalible

A pesar de los avances en los últimos años, los expertos coinciden en que ningún modelo de inteligencia artificial es completamente preciso. Incluso los sistemas más avanzados pueden generar errores cuando se enfrentan a información reciente, preguntas ambiguas o datos incompletos.

Por ese motivo, los especialistas recomiendan utilizar herramientas como ChatGPT, Claude o Gemini como apoyo para la búsqueda de información, pero siempre contrastando las respuestas con fuentes adicionales.

A medida que la inteligencia artificial continúa evolucionando y nuevos modelos aparecen en el mercado, la carrera por ofrecer sistemas más precisos y confiables se perfila como uno de los principales desafíos para la industria tecnológica en los próximos años.