
Millones de personas en Estados Unidos utilizan inteligencia artificial para responder dudas sobre salud, tanto pacientes como profesionales médicos. La consulta médica digital crece y plantea un interrogante clave: ¿Cuál es el mejor sistema de IA para brindar respuestas clínicas confiables?
Un estudio internacional, liderado por las universidades de Stanford y Harvard, analizó 31 modelos y evaluó precisión, seguridad y capacidad de sugerir acciones clínicas ante situaciones reales. El informe publicado en la revista Forbes, detalló que el proyecto denominado NOHARM (Evaluación de Riesgos y Daños por Numerosas Opciones en Medicina) constituye el análisis más riguroso sobre IA médica hasta la fecha.
PUBLICIDAD
Los investigadores recopilaron 100 consultas clínicas reales, extraídas de sistemas de atención electrónica de Stanford Health Care, e incluyeron preguntas complejas enviadas por médicos de atención primaria sobre pacientes concretos. 29 médicos especialistas evaluaron las posibles acciones que cada IA recomendó. Clasificaron las sugerencias según su pertinencia clínica y el potencial de daño, tanto por indicar una acción como por omitirla.
De acuerdo con los resultados, los expertos médicos coincidieron en más del 95 % de las decisiones, lo que muestra un amplio consenso en la evaluación de las respuestas. El equipo analizó un total de 12.747 anotaciones de expertos y 4.249 puntos de decisión clínica.
PUBLICIDAD

Además, los sistemas de IA evaluados incluyeron grandes modelos comerciales, plataformas de código abierto y soluciones especializadas en medicina. Según la revista, la comparación abarcó herramientas ampliamente conocidas como Gemini 2.5 Pro de Google, Glass Health 4.0, GPT-5 de OpenAI y sistemas desarrollados para entornos clínicos.
En la primera fase, el modelo de IA con mejor rendimiento fue AMBOSS LiSA 1.0, un sistema con recuperación aumentada basada en bases de conocimiento médico. Su puntuación alcanzó el 62,3 %, es decir, sus recomendaciones coincidieron con las acciones correctas indicadas por los médicos en ese porcentaje de los casos. Gemini 2.5 Pro logró un 59,9 %, seguido de cerca por Glass Health 4.0 (59,0 %), GPT-5 (58,3 %) y Claude Sonnet 4.5 de Anthropic (58,2 %).
PUBLICIDAD
Los criterios de evaluación y los desafíos de la IA médica
Por otra parte, el estudio reveló diferencias marcadas entre los modelos en dimensiones como la seguridad, la integridad y la moderación. Gemini 2.5 Pro lideró en seguridad al evitar recomendaciones potencialmente peligrosas. LiSA 1.0 obtuvo la mayor integridad, ya que recomendó todas las acciones médicas críticas necesarias para cada caso. En cambio, algunos modelos, como o3 mini de OpenAI, lograron las mejores puntuaciones en restricción, pero perdieron integridad, ya que omitieron acciones importantes por exceso de cautela.
Según el informe, el potencial de daño grave por recomendaciones de IA apareció en el 22 % de los casos. En el 77 % de esos casos, el riesgo surgió porque la IA no sugirió una acción clave, y no porque recomendara algo incorrecto. Los investigadores advierten que una IA excesivamente restrictiva, que evita emitir recomendaciones ante la duda, puede dejar sin orientación médica esencial.
PUBLICIDAD
Asimismo, el trabajo señala que la diferencia entre los mejores y peores modelos fue sustancial. Los sistemas con menor rendimiento cometieron más del triple de errores graves que los modelos líderes. El estudio destaca que los modelos con bases de conocimiento médico curadas y entrenamiento específico en salud obtuvieron mejores resultados que los entrenados solo con grandes volúmenes de texto general.
Comparación con médicos humanos y configuraciones multiagente
El estudio también comparó la eficacia de los modelos de IA con la de médicos generalistas certificados en medicina interna, quienes utilizaron recursos convencionales como búsquedas en internet y bases de datos clínicas, pero sin asistencia de IA. Los resultados mostraron que el modelo de IA con mejor desempeño superó a los médicos humanos en precisión por más de 15 puntos porcentuales y en seguridad por más de 10 puntos. Este hallazgo sugiere que, en ciertas tareas de apoyo, los sistemas de IA pueden complementar y mejorar la toma de decisiones clínicas.
PUBLICIDAD
Por último, los investigadores analizaron configuraciones multiagente, en las que una IA realiza recomendaciones iniciales y otros modelos revisan y corrigen sus respuestas. Las configuraciones que combinaron sistemas de distintos orígenes, como Llama 4 Scout de Meta, Gemini 2.5 Pro de Google y AMBOSS LiSA 1.0, lograron mejores resultados en seguridad y precisión que los modelos individuales. Según los expertos, la colaboración de varias IA crea una segunda opinión automatizada más confiable, similar al trabajo de equipos médicos multidisciplinarios.

El futuro de la IA médica y su impacto en la atención
Por otro lado, el estudio advierte que la IA no reemplazará el rol de los médicos en el corto plazo. Los profesionales de la salud aportan comprensión del contexto, inteligencia emocional y destreza en procedimientos, aspectos que la IA aún no puede replicar. Sin embargo, la inteligencia artificial médica puede asistir en la toma de decisiones, reducir errores y mejorar la seguridad si se utiliza con supervisión profesional.
PUBLICIDAD
La tabla de clasificación NOHARM, publicada en un sitio web público, permite monitorear el desempeño de los modelos y actualizar las evaluaciones a medida que surgen nuevas versiones. Los especialistas proyectan que la IA será un apoyo cada vez más relevante en la medicina, siempre bajo control humano y con infraestructuras de evaluación transparentes.
El trabajo de Stanford y Harvard marca un precedente en la evaluación objetiva de la IA médica, señalando los desafíos y oportunidades de integrar la tecnología en la práctica clínica diaria. Los modelos líderes, especialmente aquellos con bases médicas especializadas y combinaciones multiagente, muestran el mayor potencial para asistir a médicos y pacientes en el futuro inmediato.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Cómo saber si me bloquearon en WhatsApp: 5 señales que te sacarán de dudas
Los mensajes con una sola tilde gris durante mucho tiempo no siempre confirman el bloqueo, pero pueden ser una pista
Ver Argentina vs. Jordania gratis en sitios ilegales te expone a estos peligros digitales
Las páginas piratas suelen pedir datos personales, lo que facilita fraudes y robo de información financiera

El tiempo frente a las pantallas puede dañar el desarrollo de niños menores de 2 años, según estudio
Los autores alertan sobre riesgos en el lenguaje, la socialización y el bienestar físico, y llaman a revisar las recomendaciones oficiales

Windows 10 se resiste a morir: Microsoft extiende sus actualizaciones de seguridad hasta octubre de 2027
La compañía restringe las actualizaciones extendidas a seguridad crítica, sin nuevas funciones ni soporte técnico

A qué hora juega Colombia vs. Portugal y dónde verlo de forma legal: lo más buscado en Google
El evento reúne la atención de aficionados de ambos continentes, con figuras como Luis Díaz y Cristiano Ronaldo en busca del liderato


