Investigación demuestra que la IA todavía es incapaz de “pensar” como un médico

Pese a que ChatGPT y Grok logran diagnósticos precisos con datos completos, la inteligencia artificial aún no supera al humano en las fases iniciales de atención médica

En diferentes centros clínicos del mundo se está optando por incluir a la tecnología y el estudio de casos. (Imagen Ilustrativa Infobae)

La última evaluación comparativa sobre inteligencia artificial (IA) aplicada a la medicina puso en evidencia una brecha central: ningún modelo de lenguaje actual logra replicar el razonamiento clínico característico de un médico en las primeras etapas de diagnóstico, pese a los avances recientes y al entusiasmo por su integración en hospitales.

Según una investigación publicado en JAMA Network Open, dirigido por el doctor Marc Succi, director ejecutivo de la MESH Incubator en el Mass General Brigham, cuando estos sistemas reciben todos los datos de un caso, sí alcanzan una precisión diagnóstica superior al 90%.

Sin embargo, su rendimiento, mediante el razonamiento independiente necesario para construir listas diferenciales iniciales, sigue por debajo del nivel requerido para una aplicación clínica autónoma.

Read more!

Qué modelos de lenguajes de inteligencia artificial fueron puestos a prueba

Modelos avanzados como GPT-5 y Grok 4 alcanzan un 78% en la escala PrIME-LLM, pero quedan por debajo del 80% en listas de diagnósticos diferenciales. (Fotocomposición Infobae)

En la medición, el grupo liderado por Succi sometió a 21 modelos de lenguaje grandes (LLM), entre ellos versiones recientes de Grok 4, GPT-5, Claude, DeepSeek y Gemini, a la simulación de 29 casos clínicos.

Los resultados muestran que, aunque modelos como ChatGPT y Grok alcanzaron puntuaciones globales de hasta 78% en la escala PrIME-LLM, el estándar diseñado por los investigadores para evaluar la competencia médica de la IA en distintas etapas del razonamiento clínico, en la formulación de diagnósticos diferenciales ningún sistema superó el 80% de efectividad.

Los datos del análisis evidencian que la inteligencia artificial logra resolver correctamente diagnósticos finales si dispone de información completa: el resultado más alto observado fue superior al 90% de precisión bajo esta condición.

Pese a la alta tasa de aciertos de la IA todavía no replica la capacidad de diagnosticar del un médico humano en momentos donde hay pocos datos. (Imagen Ilustrativa Infobae)

No obstante, el proceso clínico real exige que el profesional acierte caminos diagnósticos desde la incertidumbre y sin disponer aún de estudios confirmatorios, lo que representa una barrera todavía insuperada para las máquinas evaluadas.

Cómo los investigadores midieron las competencias de la inteligencia artificial

Para escapar de evaluaciones insatisfactorias basadas únicamente en porcentajes de acierto final, los investigadores crearon PrIME-LLM: una métrica que pondera por separado cada fase crítica del abordaje clínico.

Esta métrica evalúa la calidad al generar listas de diagnósticos diferenciales, la elección de pruebas diagnósticas, el diagnóstico definitivo y la propuesta de tratamiento. Si un modelo es competente en una etapa pero deficiente en otra, la puntuación refleja ese desequilibrio en vez de ocultarlo en un promedio.

Expertos de Harvard y Mass General Brigham subrayan que la IA médica solo mejora su rendimiento cuando recibe la totalidad de datos y estudios complementarios. (Imagen Ilustrativa Infobae)

Europa Press citó que Succi dijo que la nueva escala “representa una forma estandarizada de evaluar la competencia clínica de la IA”, que puede orientar tanto el desarrollo de tecnologías futuras como las decisiones hospitalarias sobre su adopción.

Por su parte, Arya Rao, investigadora y estudiante de doctorado en la Facultad de Medicina de Harvard, precisó que al exponer gradualmente la información en los 29 casos probados, como edad, sexo, síntomas, hallazgos físicos y resultados de laboratorio, los modelos muestran una mejoría cuando se agregan estudios complementarios, aunque continúan fallando en las etapas iniciales.

Rao explicó: “Estos modelos son excelentes para llegar a un diagnóstico final una vez que se dispone de todos los datos, pero tienen dificultades al inicio de un caso, cuando no hay mucha información”.

De qué forma ha mejorado la valoración médica de la IA y qué retos existen

El estudio advierte que las expectativas sobre la IA en salud deben moderarse: su mayor reto es replicar intuición, experiencia y juicio clínico, patrimonio exclusivo de los médicos. (Imagen Ilustrativa Infobae)

El análisis de los 21 sistemas más avanzados del mercado muestra progresos respecto a ediciones previas, como indica la mejor puntuación de Grok 4 y GPT-5 frente a modelos antiguos.

No obstante, incluso los algoritmos más recientes logran una adecuada lista de diagnósticos diferenciales solo en menos de ocho de cada diez casos revisados, por debajo del umbral clínicamente aceptable.

En este sentido, la libre disponibilidad de modelos como ChatGPT, Gemini o Grok en el espacio académico y hospitalario hace imprescindible disponer de medidas objetivas para validar su uso.

Succi afirmó que, “a pesar de las continuas mejoras, los modelos de lenguaje a gran escala no están listos para su implementación clínica sin supervisión.” El estudio sostiene que la intervención humana y la vigilancia permanente siguen siendo obligatorias cuando se pretende aplicar inteligencia artificial sobre decisiones médicas.

Read more!