De diagnósticos complejos a urgencias: los mejores sistemas de IA médica según Harvard y Stanford

El mayor análisis internacional hasta la fecha pone a prueba respuestas automatizadas en escenarios reales, midiendo precisión, seguridad y capacidad de los sistemas para asistir tanto a especialistas como a pacientes en entornos clínicos diversos

Guardar
Investigadores de Stanford y Harvard
Investigadores de Stanford y Harvard analizan el rendimiento de distintas IA médicas en un laboratorio especializado. El estudio comparó 31 modelos en situaciones clínicas reales. (Imagen Ilustrativa Infobae)

Millones de personas en Estados Unidos utilizan inteligencia artificial para responder dudas sobre salud, tanto pacientes como profesionales médicos. La consulta médica digital crece y plantea un interrogante clave: ¿Cuál es el mejor sistema de IA para brindar respuestas clínicas confiables?

Un estudio internacional, liderado por las universidades de Stanford y Harvard, analizó 31 modelos y evaluó precisión, seguridad y capacidad de sugerir acciones clínicas ante situaciones reales. El informe publicado en la revista Forbes, detalló que el proyecto denominado NOHARM (Evaluación de Riesgos y Daños por Numerosas Opciones en Medicina) constituye el análisis más riguroso sobre IA médica hasta la fecha.

Los investigadores recopilaron 100 consultas clínicas reales, extraídas de sistemas de atención electrónica de Stanford Health Care, e incluyeron preguntas complejas enviadas por médicos de atención primaria sobre pacientes concretos. 29 médicos especialistas evaluaron las posibles acciones que cada IA recomendó. Clasificaron las sugerencias según su pertinencia clínica y el potencial de daño, tanto por indicar una acción como por omitirla.

De acuerdo con los resultados, los expertos médicos coincidieron en más del 95 % de las decisiones, lo que muestra un amplio consenso en la evaluación de las respuestas. El equipo analizó un total de 12.747 anotaciones de expertos y 4.249 puntos de decisión clínica.

El uso de IA complementa
El uso de IA complementa la toma de decisiones en hospitales de Estados Unidos. (Imagen Ilustrativa Infobae)

Además, los sistemas de IA evaluados incluyeron grandes modelos comerciales, plataformas de código abierto y soluciones especializadas en medicina. Según la revista, la comparación abarcó herramientas ampliamente conocidas como Gemini 2.5 Pro de Google, Glass Health 4.0, GPT-5 de OpenAI y sistemas desarrollados para entornos clínicos.

En la primera fase, el modelo de IA con mejor rendimiento fue AMBOSS LiSA 1.0, un sistema con recuperación aumentada basada en bases de conocimiento médico. Su puntuación alcanzó el 62,3 %, es decir, sus recomendaciones coincidieron con las acciones correctas indicadas por los médicos en ese porcentaje de los casos. Gemini 2.5 Pro logró un 59,9 %, seguido de cerca por Glass Health 4.0 (59,0 %), GPT-5 (58,3 %) y Claude Sonnet 4.5 de Anthropic (58,2 %).

Los criterios de evaluación y los desafíos de la IA médica

Por otra parte, el estudio reveló diferencias marcadas entre los modelos en dimensiones como la seguridad, la integridad y la moderación. Gemini 2.5 Pro lideró en seguridad al evitar recomendaciones potencialmente peligrosas. LiSA 1.0 obtuvo la mayor integridad, ya que recomendó todas las acciones médicas críticas necesarias para cada caso. En cambio, algunos modelos, como o3 mini de OpenAI, lograron las mejores puntuaciones en restricción, pero perdieron integridad, ya que omitieron acciones importantes por exceso de cautela.

Interfaz de usuario de AMBOSS
Interfaz de usuario de AMBOSS LiSA 1.0, el sistema de IA médica con mejor desempeño según el estudio. Este modelo superó a otros 30 competidores y a médicos generalistas en precisión. REUTERS/Dado Ruvic/Ilustración

Según el informe, el potencial de daño grave por recomendaciones de IA apareció en el 22 % de los casos. En el 77 % de esos casos, el riesgo surgió porque la IA no sugirió una acción clave, y no porque recomendara algo incorrecto. Los investigadores advierten que una IA excesivamente restrictiva, que evita emitir recomendaciones ante la duda, puede dejar sin orientación médica esencial.

Asimismo, el trabajo señala que la diferencia entre los mejores y peores modelos fue sustancial. Los sistemas con menor rendimiento cometieron más del triple de errores graves que los modelos líderes. El estudio destaca que los modelos con bases de conocimiento médico curadas y entrenamiento específico en salud obtuvieron mejores resultados que los entrenados solo con grandes volúmenes de texto general.

Comparación con médicos humanos y configuraciones multiagente

El estudio también comparó la eficacia de los modelos de IA con la de médicos generalistas certificados en medicina interna, quienes utilizaron recursos convencionales como búsquedas en internet y bases de datos clínicas, pero sin asistencia de IA. Los resultados mostraron que el modelo de IA con mejor desempeño superó a los médicos humanos en precisión por más de 15 puntos porcentuales y en seguridad por más de 10 puntos. Este hallazgo sugiere que, en ciertas tareas de apoyo, los sistemas de IA pueden complementar y mejorar la toma de decisiones clínicas.

Por último, los investigadores analizaron configuraciones multiagente, en las que una IA realiza recomendaciones iniciales y otros modelos revisan y corrigen sus respuestas. Las configuraciones que combinaron sistemas de distintos orígenes, como Llama 4 Scout de Meta, Gemini 2.5 Pro de Google y AMBOSS LiSA 1.0, lograron mejores resultados en seguridad y precisión que los modelos individuales. Según los expertos, la colaboración de varias IA crea una segunda opinión automatizada más confiable, similar al trabajo de equipos médicos multidisciplinarios.

Las nuevas herramientas de IA
Las nuevas herramientas de IA ganan presencia en hospitales y centros de diagnóstico. (Europa Press)

El futuro de la IA médica y su impacto en la atención

Por otro lado, el estudio advierte que la IA no reemplazará el rol de los médicos en el corto plazo. Los profesionales de la salud aportan comprensión del contexto, inteligencia emocional y destreza en procedimientos, aspectos que la IA aún no puede replicar. Sin embargo, la inteligencia artificial médica puede asistir en la toma de decisiones, reducir errores y mejorar la seguridad si se utiliza con supervisión profesional.

La tabla de clasificación NOHARM, publicada en un sitio web público, permite monitorear el desempeño de los modelos y actualizar las evaluaciones a medida que surgen nuevas versiones. Los especialistas proyectan que la IA será un apoyo cada vez más relevante en la medicina, siempre bajo control humano y con infraestructuras de evaluación transparentes.

El trabajo de Stanford y Harvard marca un precedente en la evaluación objetiva de la IA médica, señalando los desafíos y oportunidades de integrar la tecnología en la práctica clínica diaria. Los modelos líderes, especialmente aquellos con bases médicas especializadas y combinaciones multiagente, muestran el mayor potencial para asistir a médicos y pacientes en el futuro inmediato.