La mitad de los consejos médicos de la IA son problemáticos: el peligro de confiar en Grok y otros chatbots

Una investigación evaluó las respuestas de varios asistentes de inteligencia artificial a consultas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo

Guardar
Grok, el chatbot de xAI, concentra el 58 % de respuestas calificadas como muy problemáticas. (Foto: REUTERS/Dado Ruvic/Ilustración)
Grok, el chatbot de xAI, concentra el 58 % de respuestas calificadas como muy problemáticas. (Foto: REUTERS/Dado Ruvic/Ilustración)

La mitad de los consejos médicos que ofrecen algunos chatbots de inteligencia artificial (IA) disponibles al público resultan inexactos o problemáticos, lo que provoca un riesgo tangible de desinformación en salud para usuarios que buscan orientación, según concluye un estudio reciente publicado por BMJ Open.

El informe advierte que el despliegue de estos sistemas, sin educación ni auditoría pública adecuada, puede amplificar errores con consecuencias directas sobre las decisiones médicas de los usuarios.

Cuáles chatbots de inteligencia artificial fueron analizados por los investigadores

El análisis, realizado en febrero de 2025, incluyó varios chatbots de IA generativa populares, como DeepSeek, Meta AI, ChatGPT y Grok. A cada uno se le sometió a una serie de diez consultas, tanto abiertas como cerradas, en cinco ámbitos clave: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.

Pantalla de una laptop mostrando la interfaz de un chatbot impulsado por Inteligencia Artificial, con líneas de código destacadas. La imagen refleja el impacto de la IA en la evolución tecnológica, simbolizando los avances en programación, robótica y asistencia digital en el campo científico y tecnológico. (Imagen ilustrativa Infobae)
La idea de la investigación era evaluar a los asistente de IA más populares en el mercado. (Imagen ilustrativa Infobae)

La evaluación midió claridad, exhaustividad y si los bots caían en el error de ofrecer un falso equilibrio entre información científicamente comprobada y afirmaciones sin respaldo.

El objetivo fue simular preguntas que habitualmente formulan pacientes al buscar consejo sanitario, y evaluar hasta qué punto los chatbots incurren en sugerencias incorrectas o abiertas a interpretación peligrosa.

Una de las diferencias más claves detectadas por los investigadores del Instituto Lundquist para la Innovación Biomédica es el desempeño desigual entre modelos, en particular la tendencia de Grok, el chatbot de xAI, al emitir sugerencias calificadas como “muy problemáticas” en un 58% de los casos evaluados.

Qué consejos médicos por parte de la IA se consideran problemáticos

Hombre usando una computadora personal con un chatbot médico de IA visible en la pantalla, en un entorno de oficina en casa
Los chatbots muestran mayor precisión en respuestas sobre vacunas y cáncer, pero fallan en nutrición, rendimiento deportivo y temas de células madre. (Imagen Ilustrativa Infobae)

El estudio define como problemática aquella respuesta que puede llevar a un usuario sin formación médica a iniciar un tratamiento ineficaz o potencialmente dañino por no contar con la guía de un profesional.

La estadística global es contundente: el 50% de las respuestas fueron identificadas como cuestionables, divididas entre un 30% “algo problemáticas” y un 20% “muy problemáticas”.

Esta tasa persiste a pesar de que la calidad global de las respuestas no mostró grandes diferencias entre los modelos, con excepción del alto número de respuestas muy problemáticas en Grok.

Además, un detalle clave es que los chatbots aciertan más en temas de vacunas y cáncer, pero ofrecen información muy deficiente en células madre, nutrición y consejos para el rendimiento deportivo.

Por qué las respuestas de la IA a preguntas cerradas generan preocupación

(Imagen Ilustrativa Infobae)
Las preguntas abiertas generan más respuestas muy problemáticas que las cerradas, mostrando que la forma de la consulta influye en la seguridad del consejo generado por IA. (Imagen Ilustrativa Infobae)

De acuerdo con BMJ Open, al distinguir entre tipos de pregunta, las consultas abiertas, que permiten crear listas y explicaciones complejas, generaron 40 respuestas muy problemáticas, más del doble de lo esperado, mientras que las cerradas llevaron a una mayor proporción de respuestas correctas.

Las preguntas cerradas, que exigen elegir entre opciones prediseñadas, tienden a alinearse mejor con el consenso científico. Esta diferencia de respuesta evidencia que la estructura misma de la consulta influye de manera decisiva en la seguridad del consejo generado.

Qué otras investigaciones muestran los problemas de la IA

Una investigación paralela, publicada en JAMA Network Open, aporta contexto adicional al destacar que los modelos de lenguaje fracasan en más del 80% de los casos al realizar diagnósticos diferenciales cuando cuentan con información clínica parcial o limitada, una etapa clave en la toma de decisiones médicas.

(Imagen Ilustrativa Infobae)
Pese al avance de la tecnología todavía requiere supervisión humana. (Imagen Ilustrativa Infobae)

El estudio documenta que, aunque estos sistemas pueden alcanzar aciertos del 90% cuando reciben información clínica completa, su desempeño en las fases intermedias del proceso diagnóstico sigue siendo irregular.

Asimismo, este patrón de errores se atribuye a un funcionamiento estructural de los chatbots: al no acceder a datos en tiempo real ni razonar como un médico, generan respuestas mediante la predicción estadística de secuencias de palabras a partir de sus datos de entrenamiento.

Por esta razón, diferentes expertos han afirmado que, a pesar de las continuas mejoras, los modelos de lenguaje de IA no están listos para su implementación clínica sin supervisión de un humano.