De diagnósticos complejos a urgencias: los mejores sistemas de IA médica según Harvard y Stanford

Guardar

Investigadores de Stanford y Harvard analizan el rendimiento de distintas IA médicas en un laboratorio especializado. El estudio comparó 31 modelos en situaciones clínicas reales. (Imagen Ilustrativa Infobae)

Millones de personas en Estados Unidos utilizan inteligencia artificial para responder dudas sobre salud, tanto pacientes como profesionales médicos. La consulta médica digital crece y plantea un interrogante clave: ¿Cuál es el mejor sistema de IA para brindar respuestas clínicas confiables?

Un estudio internacional, liderado por las universidades de Stanford y Harvard, analizó 31 modelos y evaluó precisión, seguridad y capacidad de sugerir acciones clínicas ante situaciones reales. El informe publicado en la revista Forbes, detalló que el proyecto denominado NOHARM (Evaluación de Riesgos y Daños por Numerosas Opciones en Medicina) constituye el análisis más riguroso sobre IA médica hasta la fecha.

Los investigadores recopilaron 100 consultas clínicas reales, extraídas de sistemas de atención electrónica de Stanford Health Care, e incluyeron preguntas complejas enviadas por médicos de atención primaria sobre pacientes concretos. 29 médicos especialistas evaluaron las posibles acciones que cada IA recomendó. Clasificaron las sugerencias según su pertinencia clínica y el potencial de daño, tanto por indicar una acción como por omitirla.

De acuerdo con los resultados, los expertos médicos coincidieron en más del 95 % de las decisiones, lo que muestra un amplio consenso en la evaluación de las respuestas. El equipo analizó un total de 12.747 anotaciones de expertos y 4.249 puntos de decisión clínica.

El uso de IA complementa la toma de decisiones en hospitales de Estados Unidos. (Imagen Ilustrativa Infobae)

Además, los sistemas de IA evaluados incluyeron grandes modelos comerciales, plataformas de código abierto y soluciones especializadas en medicina. Según la revista, la comparación abarcó herramientas ampliamente conocidas como Gemini 2.5 Pro de Google, Glass Health 4.0, GPT-5 de OpenAI y sistemas desarrollados para entornos clínicos.

En la primera fase, el modelo de IA con mejor rendimiento fue AMBOSS LiSA 1.0, un sistema con recuperación aumentada basada en bases de conocimiento médico. Su puntuación alcanzó el 62,3 %, es decir, sus recomendaciones coincidieron con las acciones correctas indicadas por los médicos en ese porcentaje de los casos. Gemini 2.5 Pro logró un 59,9 %, seguido de cerca por Glass Health 4.0 (59,0 %), GPT-5 (58,3 %) y Claude Sonnet 4.5 de Anthropic (58,2 %).

Por otra parte, el estudio reveló diferencias marcadas entre los modelos en dimensiones como la seguridad, la integridad y la moderación. Gemini 2.5 Pro lideró en seguridad al evitar recomendaciones potencialmente peligrosas. LiSA 1.0 obtuvo la mayor integridad, ya que recomendó todas las acciones médicas críticas necesarias para cada caso. En cambio, algunos modelos, como o3 mini de OpenAI, lograron las mejores puntuaciones en restricción, pero perdieron integridad, ya que omitieron acciones importantes por exceso de cautela.

Interfaz de usuario de AMBOSS LiSA 1.0, el sistema de IA médica con mejor desempeño según el estudio. Este modelo superó a otros 30 competidores y a médicos generalistas en precisión. REUTERS/Dado Ruvic/Ilustración

Según el informe, el potencial de daño grave por recomendaciones de IA apareció en el 22 % de los casos. En el 77 % de esos casos, el riesgo surgió porque la IA no sugirió una acción clave, y no porque recomendara algo incorrecto. Los investigadores advierten que una IA excesivamente restrictiva, que evita emitir recomendaciones ante la duda, puede dejar sin orientación médica esencial.

Asimismo, el trabajo señala que la diferencia entre los mejores y peores modelos fue sustancial. Los sistemas con menor rendimiento cometieron más del triple de errores graves que los modelos líderes. El estudio destaca que los modelos con bases de conocimiento médico curadas y entrenamiento específico en salud obtuvieron mejores resultados que los entrenados solo con grandes volúmenes de texto general.

El estudio también comparó la eficacia de los modelos de IA con la de médicos generalistas certificados en medicina interna, quienes utilizaron recursos convencionales como búsquedas en internet y bases de datos clínicas, pero sin asistencia de IA. Los resultados mostraron que el modelo de IA con mejor desempeño superó a los médicos humanos en precisión por más de 15 puntos porcentuales y en seguridad por más de 10 puntos. Este hallazgo sugiere que, en ciertas tareas de apoyo, los sistemas de IA pueden complementar y mejorar la toma de decisiones clínicas.

Por último, los investigadores analizaron configuraciones multiagente, en las que una IA realiza recomendaciones iniciales y otros modelos revisan y corrigen sus respuestas. Las configuraciones que combinaron sistemas de distintos orígenes, como Llama 4 Scout de Meta, Gemini 2.5 Pro de Google y AMBOSS LiSA 1.0, lograron mejores resultados en seguridad y precisión que los modelos individuales. Según los expertos, la colaboración de varias IA crea una segunda opinión automatizada más confiable, similar al trabajo de equipos médicos multidisciplinarios.

Las nuevas herramientas de IA ganan presencia en hospitales y centros de diagnóstico. (Europa Press)

Por otro lado, el estudio advierte que la IA no reemplazará el rol de los médicos en el corto plazo. Los profesionales de la salud aportan comprensión del contexto, inteligencia emocional y destreza en procedimientos, aspectos que la IA aún no puede replicar. Sin embargo, la inteligencia artificial médica puede asistir en la toma de decisiones, reducir errores y mejorar la seguridad si se utiliza con supervisión profesional.

La tabla de clasificación NOHARM, publicada en un sitio web público, permite monitorear el desempeño de los modelos y actualizar las evaluaciones a medida que surgen nuevas versiones. Los especialistas proyectan que la IA será un apoyo cada vez más relevante en la medicina, siempre bajo control humano y con infraestructuras de evaluación transparentes.

El trabajo de Stanford y Harvard marca un precedente en la evaluación objetiva de la IA médica, señalando los desafíos y oportunidades de integrar la tecnología en la práctica clínica diaria. Los modelos líderes, especialmente aquellos con bases médicas especializadas y combinaciones multiagente, muestran el mayor potencial para asistir a médicos y pacientes en el futuro inmediato.

Últimas Noticias

Samsung podría enfrentar huelga de trabajadores y la producción de chips de IA estaría en riesgo

El eje del conflicto radica en la marcada diferencia salarial con SK Hynix, el principal competidor de la compañía surcoreana

5G: Movistar despliega tecnología en distritos de Lima

Durante el Mobile World Congress en Barcelona, España, Integratel Perú - Movistar informó que la compañía ha desarrollado un plan estratégico de modernización de su red móvil, que incluyo el despliegue de 5G y expansión 4G, con más de 2.000 estaciones base celular renovadas

Cómo puedo saber la vida útil de mi batería del celular: guía para iPhone y Android

Este procedimiento es valioso ya que brinda a los usuarios acceso a datos esenciales sobre la condición de la batería, el consumo del equipo y su desempeño

Las apps de vigilancia afectan a 1 de cada 4 mujeres en Perú: cómo enfrentar esta amenaza

Asimismo, casi la mitad de las mujeres del país afirmó sentirse espiada mediante tecnología en el ámbito de sus relaciones personales

Cómo usar WhatsAp en relojes inteligentes y dónde descargar la app

Al tener instalada esta plataforma en dispositivo, los usuarios pueden consultar mensajes y responderlos desde su muñeca, sin necesidad de acudir a su celular

De diagnósticos complejos a urgencias: los mejores sistemas de IA médica según Harvard y Stanford

El mayor análisis internacional hasta la fecha pone a prueba respuestas automatizadas en escenarios reales, midiendo precisión, seguridad y capacidad de los sistemas para asistir tanto a especialistas como a pacientes en entornos clínicos diversos

Los criterios de evaluación y los desafíos de la IA médica

Comparación con médicos humanos y configuraciones multiagente

El futuro de la IA médica y su impacto en la atención

Últimas Noticias

Samsung podría enfrentar huelga de trabajadores y la producción de chips de IA estaría en riesgo

El eje del conflicto radica en la marcada diferencia salarial con SK Hynix, el principal competidor de la compañía surcoreana

5G: Movistar despliega tecnología en distritos de Lima

Durante el Mobile World Congress en Barcelona, España, Integratel Perú - Movistar informó que la compañía ha desarrollado un plan estratégico de modernización de su red móvil, que incluyo el despliegue de 5G y expansión 4G, con más de 2.000 estaciones base celular renovadas

Cómo puedo saber la vida útil de mi batería del celular: guía para iPhone y Android

Este procedimiento es valioso ya que brinda a los usuarios acceso a datos esenciales sobre la condición de la batería, el consumo del equipo y su desempeño

Las apps de vigilancia afectan a 1 de cada 4 mujeres en Perú: cómo enfrentar esta amenaza

Asimismo, casi la mitad de las mujeres del país afirmó sentirse espiada mediante tecnología en el ámbito de sus relaciones personales

Cómo usar WhatsAp en relojes inteligentes y dónde descargar la app

Al tener instalada esta plataforma en dispositivo, los usuarios pueden consultar mensajes y responderlos desde su muñeca, sin necesidad de acudir a su celular

El Inter Miami de Lionel Messi buscará el pase a los cuartos de final de la Concachampions ante Nashville SC: hora, TV y formaciones

La arenga de Colapinto ante el staff de Alpine tras sumar su primer punto en 2026: “Estamos esforzándonos para luchar por podios”

Con un golazo de Julián Álvarez, el Atlético de Madrid cae ante Tottenham pero se está clasificando a los cuartos en la Champions League

El exabrupto de Neymar contra Carlo Ancelotti en vivo al no ser convocado para la selección brasileña

Fernando Gago asumirá como entrenador de un grande de Sudamérica

El look que eligió Sofía Gonet para la final de MasterChef Celebrity: en qué icónica producción de una diva se inspiró

Una participante de Ahora Caigo contó que se distanció de sus amigas y Darío Barassi la aconsejó: “Puliendo las amistades”

Antonela Roccuzzo y Valentina Cervantes dejaron de seguir a Emilia Mernes tras la actitud de Tini Stoessel

La salida de Sabrina Rojas y José Chatruc que alimentó rumores de romance: “Hacen muchas cosas”

Marta Fort contó detalles inéditos de la vida con su padre Ricardo: “Mi casa era un circo”

INFOBAE AMÉRICA

Siete panameños al día caen en estafas financieras

El Alzheimer podría originarse por una “competencia” entre proteínas en el cerebro

La Fundación FESA anuncian nueva edición de Cancha de Oportunidades para la formación deportiva de niños salvadoreños

Samanta Schweblin for export: el largo camino de la escritora argentina, cada vez más premiada en el mundo

Amenaza del líder supremo iraní: dijo que los “asesinos criminales” de Ali Lariyani pagarán con sangre

Los criterios de evaluación y los desafíos de la IA médica

Comparación con médicos humanos y configuraciones multiagente

El futuro de la IA médica y su impacto en la atención

Temas Relacionados

Últimas Noticias

Samsung podría enfrentar huelga de trabajadores y la producción de chips de IA estaría en riesgo

El eje del conflicto radica en la marcada diferencia salarial con SK Hynix, el principal competidor de la compañía surcoreana

5G: Movistar despliega tecnología en distritos de Lima

Durante el Mobile World Congress en Barcelona, España, Integratel Perú - Movistar informó que la compañía ha desarrollado un plan estratégico de modernización de su red móvil, que incluyo el despliegue de 5G y expansión 4G, con más de 2.000 estaciones base celular renovadas

Cómo puedo saber la vida útil de mi batería del celular: guía para iPhone y Android

Este procedimiento es valioso ya que brinda a los usuarios acceso a datos esenciales sobre la condición de la batería, el consumo del equipo y su desempeño

Las apps de vigilancia afectan a 1 de cada 4 mujeres en Perú: cómo enfrentar esta amenaza

Asimismo, casi la mitad de las mujeres del país afirmó sentirse espiada mediante tecnología en el ámbito de sus relaciones personales

Cómo usar WhatsAp en relojes inteligentes y dónde descargar la app

Al tener instalada esta plataforma en dispositivo, los usuarios pueden consultar mensajes y responderlos desde su muñeca, sin necesidad de acudir a su celular

El Inter Miami de Lionel Messi buscará el pase a los cuartos de final de la Concachampions ante Nashville SC: hora, TV y formaciones

La arenga de Colapinto ante el staff de Alpine tras sumar su primer punto en 2026: “Estamos esforzándonos para luchar por podios”

Con un golazo de Julián Álvarez, el Atlético de Madrid cae ante Tottenham pero se está clasificando a los cuartos en la Champions League

El exabrupto de Neymar contra Carlo Ancelotti en vivo al no ser convocado para la selección brasileña

Fernando Gago asumirá como entrenador de un grande de Sudamérica

El look que eligió Sofía Gonet para la final de MasterChef Celebrity: en qué icónica producción de una diva se inspiró

Una participante de Ahora Caigo contó que se distanció de sus amigas y Darío Barassi la aconsejó: “Puliendo las amistades”

Antonela Roccuzzo y Valentina Cervantes dejaron de seguir a Emilia Mernes tras la actitud de Tini Stoessel

La salida de Sabrina Rojas y José Chatruc que alimentó rumores de romance: “Hacen muchas cosas”

Marta Fort contó detalles inéditos de la vida con su padre Ricardo: “Mi casa era un circo”

INFOBAE AMÉRICA

Siete panameños al día caen en estafas financieras

El Alzheimer podría originarse por una “competencia” entre proteínas en el cerebro

La Fundación FESA anuncian nueva edición de Cancha de Oportunidades para la formación deportiva de niños salvadoreños

Samanta Schweblin for export: el largo camino de la escritora argentina, cada vez más premiada en el mundo

Amenaza del líder supremo iraní: dijo que los “asesinos criminales” de Ali Lariyani pagarán con sangre