
Millones de personas en Estados Unidos utilizan inteligencia artificial para responder dudas sobre salud, tanto pacientes como profesionales médicos. La consulta médica digital crece y plantea un interrogante clave: ¿Cuál es el mejor sistema de IA para brindar respuestas clínicas confiables?
Un estudio internacional, liderado por las universidades de Stanford y Harvard, analizó 31 modelos y evaluó precisión, seguridad y capacidad de sugerir acciones clínicas ante situaciones reales. El informe publicado en la revista Forbes, detalló que el proyecto denominado NOHARM (Evaluación de Riesgos y Daños por Numerosas Opciones en Medicina) constituye el análisis más riguroso sobre IA médica hasta la fecha.
Los investigadores recopilaron 100 consultas clínicas reales, extraídas de sistemas de atención electrónica de Stanford Health Care, e incluyeron preguntas complejas enviadas por médicos de atención primaria sobre pacientes concretos. 29 médicos especialistas evaluaron las posibles acciones que cada IA recomendó. Clasificaron las sugerencias según su pertinencia clínica y el potencial de daño, tanto por indicar una acción como por omitirla.
De acuerdo con los resultados, los expertos médicos coincidieron en más del 95 % de las decisiones, lo que muestra un amplio consenso en la evaluación de las respuestas. El equipo analizó un total de 12.747 anotaciones de expertos y 4.249 puntos de decisión clínica.

Además, los sistemas de IA evaluados incluyeron grandes modelos comerciales, plataformas de código abierto y soluciones especializadas en medicina. Según la revista, la comparación abarcó herramientas ampliamente conocidas como Gemini 2.5 Pro de Google, Glass Health 4.0, GPT-5 de OpenAI y sistemas desarrollados para entornos clínicos.
En la primera fase, el modelo de IA con mejor rendimiento fue AMBOSS LiSA 1.0, un sistema con recuperación aumentada basada en bases de conocimiento médico. Su puntuación alcanzó el 62,3 %, es decir, sus recomendaciones coincidieron con las acciones correctas indicadas por los médicos en ese porcentaje de los casos. Gemini 2.5 Pro logró un 59,9 %, seguido de cerca por Glass Health 4.0 (59,0 %), GPT-5 (58,3 %) y Claude Sonnet 4.5 de Anthropic (58,2 %).
Los criterios de evaluación y los desafíos de la IA médica
Por otra parte, el estudio reveló diferencias marcadas entre los modelos en dimensiones como la seguridad, la integridad y la moderación. Gemini 2.5 Pro lideró en seguridad al evitar recomendaciones potencialmente peligrosas. LiSA 1.0 obtuvo la mayor integridad, ya que recomendó todas las acciones médicas críticas necesarias para cada caso. En cambio, algunos modelos, como o3 mini de OpenAI, lograron las mejores puntuaciones en restricción, pero perdieron integridad, ya que omitieron acciones importantes por exceso de cautela.
Según el informe, el potencial de daño grave por recomendaciones de IA apareció en el 22 % de los casos. En el 77 % de esos casos, el riesgo surgió porque la IA no sugirió una acción clave, y no porque recomendara algo incorrecto. Los investigadores advierten que una IA excesivamente restrictiva, que evita emitir recomendaciones ante la duda, puede dejar sin orientación médica esencial.
Asimismo, el trabajo señala que la diferencia entre los mejores y peores modelos fue sustancial. Los sistemas con menor rendimiento cometieron más del triple de errores graves que los modelos líderes. El estudio destaca que los modelos con bases de conocimiento médico curadas y entrenamiento específico en salud obtuvieron mejores resultados que los entrenados solo con grandes volúmenes de texto general.
Comparación con médicos humanos y configuraciones multiagente
El estudio también comparó la eficacia de los modelos de IA con la de médicos generalistas certificados en medicina interna, quienes utilizaron recursos convencionales como búsquedas en internet y bases de datos clínicas, pero sin asistencia de IA. Los resultados mostraron que el modelo de IA con mejor desempeño superó a los médicos humanos en precisión por más de 15 puntos porcentuales y en seguridad por más de 10 puntos. Este hallazgo sugiere que, en ciertas tareas de apoyo, los sistemas de IA pueden complementar y mejorar la toma de decisiones clínicas.
Por último, los investigadores analizaron configuraciones multiagente, en las que una IA realiza recomendaciones iniciales y otros modelos revisan y corrigen sus respuestas. Las configuraciones que combinaron sistemas de distintos orígenes, como Llama 4 Scout de Meta, Gemini 2.5 Pro de Google y AMBOSS LiSA 1.0, lograron mejores resultados en seguridad y precisión que los modelos individuales. Según los expertos, la colaboración de varias IA crea una segunda opinión automatizada más confiable, similar al trabajo de equipos médicos multidisciplinarios.

El futuro de la IA médica y su impacto en la atención
Por otro lado, el estudio advierte que la IA no reemplazará el rol de los médicos en el corto plazo. Los profesionales de la salud aportan comprensión del contexto, inteligencia emocional y destreza en procedimientos, aspectos que la IA aún no puede replicar. Sin embargo, la inteligencia artificial médica puede asistir en la toma de decisiones, reducir errores y mejorar la seguridad si se utiliza con supervisión profesional.
La tabla de clasificación NOHARM, publicada en un sitio web público, permite monitorear el desempeño de los modelos y actualizar las evaluaciones a medida que surgen nuevas versiones. Los especialistas proyectan que la IA será un apoyo cada vez más relevante en la medicina, siempre bajo control humano y con infraestructuras de evaluación transparentes.
El trabajo de Stanford y Harvard marca un precedente en la evaluación objetiva de la IA médica, señalando los desafíos y oportunidades de integrar la tecnología en la práctica clínica diaria. Los modelos líderes, especialmente aquellos con bases médicas especializadas y combinaciones multiagente, muestran el mayor potencial para asistir a médicos y pacientes en el futuro inmediato.
Últimas Noticias
Samsung podría enfrentar huelga de trabajadores y la producción de chips de IA estaría en riesgo
El eje del conflicto radica en la marcada diferencia salarial con SK Hynix, el principal competidor de la compañía surcoreana

5G: Movistar despliega tecnología en distritos de Lima
Durante el Mobile World Congress en Barcelona, España, Integratel Perú - Movistar informó que la compañía ha desarrollado un plan estratégico de modernización de su red móvil, que incluyo el despliegue de 5G y expansión 4G, con más de 2.000 estaciones base celular renovadas

Cómo puedo saber la vida útil de mi batería del celular: guía para iPhone y Android
Este procedimiento es valioso ya que brinda a los usuarios acceso a datos esenciales sobre la condición de la batería, el consumo del equipo y su desempeño

Las apps de vigilancia afectan a 1 de cada 4 mujeres en Perú: cómo enfrentar esta amenaza
Asimismo, casi la mitad de las mujeres del país afirmó sentirse espiada mediante tecnología en el ámbito de sus relaciones personales

Cómo usar WhatsAp en relojes inteligentes y dónde descargar la app
Al tener instalada esta plataforma en dispositivo, los usuarios pueden consultar mensajes y responderlos desde su muñeca, sin necesidad de acudir a su celular



