La IA mejora la precisión en los diagnósticos médicos pero carece de razonamiento crítico

Guardar

Redacción Ciencia, 13 abr (EFE).- Aunque los chatbots de inteligencia artificial (IA) utilizados en la atención médica suelen acertar el diagnóstico cuando disponen de la información clínica completa, siguen mostrando deficiencias importantes cuando tienen que diagnosticar con poca información o cuando tienen que hacer un diagnóstico diferencial.

Según un estudio publicado este lunes en JAMA Network Open y realizado por investigadores del la incubadora de innovación MESH de la red de hospitales de Boston Mass General Brigham (Estados Unidos), la IA aún no está preparada para tomar decisiones médicas sin la supervisión constante de un profesional humano.

El equipo llegó a esta conclusión tras evaluar 21 de los modelos de lenguaje grandes (LLM) más avanzados del mercado -entre ellos GPT-5, Grok 4, Claude, DeepSeek y Gemini- mediante una metodología específica desarrollada para evaluar la competencia clínica de estos modelos de IA.

Los investigadores pidieron a los 21 modelos de IA que actuaran como médicos en una serie de escenarios clínicos y comprobaron que los LLM a menudo fallan al navegar por los estudios diagnósticos y al proponer una lista comprobable de diagnósticos potenciales o "diferenciales".

Aunque todos los LLM probados llegaron a un diagnóstico final correcto más del 90% de las veces cuando se les proporcionó toda la información pertinente en el caso de un paciente, obtuvieron consistentemente un desempeño deficiente en los pasos iniciales del proceso diagnóstico, impulsados por el razonamiento.

"Pese a las continuas mejoras, los modelos de lenguaje grandes estándar no están listos para un despliegue de grado clínico sin supervisión", concluye Marc Succi, director ejecutivo de la Incubadora MESH en Mass General Brigham y autor correspondiente del trabajo.

"Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y subyacen al 'arte de la medicina' que la IA no puede replicar actualmente", subraya el investigador quien añade que, por ahora, la IA solo sirve para "aumentar, no reemplazar, el razonamiento del médico, siempre que todos los datos relevantes estén disponibles, lo cual no siempre es el caso".

El equipo desarrolló la medida PrIME-LLM para evaluar la competencia del modelo de IA a la hora de proponer diagnósticos potenciales, hacer las pruebas adecuadas, llegar a un diagnóstico final y gestionar el tratamiento.

La puntuación de PriME-LLM, además, refleja con exactitud cuando los modelos funcionan bien en un área pero mal en otra y no ofrece una puntuación promedio que podría ocultar sus debilidades, apuntan los investigadores.

El estudio comparó 21 LLM de propósito general, incluyendo los últimos modelos de ChatGPT, DeepSeek, Claude, Gemini y Grok y su capacidad para trabajar en 29 casos clínicos publicados.

Para ello, proporcionaron información a los modelos gradualmente, empezando por aspectos básicos como la edad, el sexo y los síntomas del paciente antes de añadir los hallazgos del examen físico y los resultados de laboratorio.

El desempeño de los LLM en cada etapa fue valorado por evaluadores que eran estudiantes de medicina, y estas evaluaciones se utilizaron para calcular las puntuaciones generales PrIME-LLM de los modelos.

Los investigadores descubrieron que los LLM eran buenos produciendo diagnósticos finales precisos pero que todos fallaban al producir un diagnóstico diferencial (más del 80% de las veces).

"Observamos que son excelentes para nombrar un diagnóstico final una vez que los datos están completos, pero tienen dificultades en el inicio abierto de un caso, cuando no hay mucha información", aclara Arya Rao, autora principal, investigadora de MESH y estudiante en la Facultad de Medicina de Harvard.

El estudio, que también sirvió como barómetro de la rápida evolución de la IA, constató que los modelos lanzados más recientemente superaron generalmente a los modelos más antiguos, lo que demuestra que mejoran constantemente.

En la escala PriME-LLM, las puntuaciones de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.

Además, el estudio confirmó que la precisión de todos los LLM mejoraba sustancialmente cuando se incorporaban datos no textuales.