
En la última década, la inteligencia artificial (IA) irrumpió como una herramienta prometedora para la medicina. Desde la identificación de patrones complejos en imágenes médicas hasta el análisis de datos genómicos, estos sistemas mostraron un potencial revolucionario.
Sin embargo, su integración en el ejercicio clínico enfrenta limitaciones críticas, especialmente en el contexto de la interacción con pacientes, una de las habilidades más fundamentales de los médicos.
PUBLICIDAD
Un estudio reciente, revelado por investigadores de la Universidad de Harvard publicado en New Scientist, destaca que, aunque modelos avanzados como GPT-4 de OpenAI obtienen resultados impresionantes en pruebas de opción múltiple, sus capacidades se desploman en entornos más realistas donde deben interactuar con pacientes para recopilar información y emitir diagnósticos.
Los límites del razonamiento diagnóstico en la IA
Pranav Rajpurkar, uno de los autores principales del estudio, señaló que los modelos de IA enfrentan grandes desafíos en el razonamiento diagnóstico abierto, una habilidad clave en la medicina.
PUBLICIDAD
“Aunque los modelos de lenguaje de gran tamaño son muy eficaces en pruebas estandarizadas, su precisión se reduce significativamente en conversaciones dinámicas con pacientes”, explicó Rajpurkar.
Para explorar esta brecha, los investigadores desarrollaron un método innovador para evaluar la capacidad de razonamiento clínico de los modelos de IA.
Este nuevo estándar, denominado CRAFT-MD, utiliza simulaciones que reflejan situaciones reales en las que los pacientes no siempre saben qué detalles mencionar y revelan información relevante solo cuando son guiados por preguntas específicas.
PUBLICIDAD

Cómo funciona CRAFT-MD
El estándar CRAFT-MD basa sus evaluaciones en 2.000 casos médicos, en su mayoría extraídos de exámenes de certificación profesional en Estados Unidos. En las simulaciones, GPT-4 actuó como un paciente virtual en conversaciones con modelos clínicos, proporcionando respuestas basadas en datos reales.
Además, GPT-4 ayudó a calificar los diagnósticos emitidos por las IA clínicas, comparándolos con las respuestas correctas. Expertos humanos supervisaron el proceso para verificar la calidad de las interacciones y la precisión de los diagnósticos.
PUBLICIDAD
Resultados: el desafío de las conversaciones simuladas
Los resultados mostraron una discrepancia significativa entre el desempeño de los modelos en exámenes estandarizados y en conversaciones simuladas.
GPT-4, por ejemplo, logró una precisión del 82 % al diagnosticar a partir de resúmenes estructurados y opciones múltiples, pero esta cifra se desplomó al 26 % cuando se enfrentó a conversaciones clínicas simuladas.
PUBLICIDAD
Otros modelos, como GPT-3.5 (OpenAI), Llama-2-7b (Meta) y Mistral-v2-7b (Mistral AI), mostraron un rendimiento aún más bajo, con Llama generalmente obteniendo las puntuaciones más bajas. Incluso en los casos donde las IA lograron recopilar información médica relevante, muchas veces no pudieron emitir diagnósticos acertados.
Más allá de las pruebas
Para expertos como Eric Topol, del Instituto de Investigación Traslacional Scripps, este tipo de evaluación representa un cambio significativo.
“Evaluar la capacidad de razonamiento clínico de una IA a través de conversaciones es mucho más útil que los exámenes de opción múltiple, ya que estos no reflejan las complejidades del mundo real”, señaló Topol.
PUBLICIDAD

En situaciones reales, los médicos no solo deben recopilar información y emitir diagnósticos, sino también interpretar señales no verbales, considerar el contexto emocional y social del paciente y adaptarse a la incertidumbre. Estos elementos hacen que la interacción médico-paciente sea una tarea difícil de replicar por máquinas.
IA como herramienta complementaria, no sustituta
Pranav Rajpurkar enfatizó que incluso si los modelos de IA logran superar el estándar CRAFT-MD, no significa que sean superiores a los médicos humanos.
PUBLICIDAD
La práctica médica real implica una combinación de habilidades técnicas, empatía, coordinación interdisciplinaria y adaptación a factores sociales y sistémicos complejos.
“La IA podría convertirse en una herramienta poderosa para apoyar a los médicos, pero no puede reemplazar el juicio holístico de un profesional experimentado”, añadió Rajpurkar.
PUBLICIDAD
Retos y oportunidades

Aunque los resultados actuales subrayan las limitaciones de la IA en medicina, también abren nuevas posibilidades. Herramientas como CRAFT-MD permiten identificar áreas clave de mejora y avanzar hacia modelos más robustos que puedan complementar el trabajo clínico.
En un escenario ideal, los modelos de IA podrían encargarse de tareas específicas como análisis de datos complejos o procesamiento de grandes volúmenes de información, liberando a los médicos para enfocarse en el aspecto humano del cuidado de la salud.
Sin embargo, alcanzar este equilibrio requiere más investigación, recursos y, sobre todo, una integración ética que respete los límites de la tecnología.
Aunque la inteligencia artificial tiene el potencial de transformar la medicina, su implementación debe abordarse con cautela. Los modelos actuales, a pesar de sus impresionantes capacidades en contextos estructurados, todavía están lejos de reemplazar las habilidades humanas en la práctica clínica. El desafío radica en encontrar un equilibrio donde la tecnología no desplace, sino que refuerce el arte de la medicina.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
El vinagre de manzana muestra beneficios limitados en la pérdida de peso y el control metabólico
Nuevas investigaciones revelan que, aunque puede aportar reducciones leves en medidas corporales y glucosa, su efecto depende de la dieta y no reemplaza hábitos saludables ni tratamientos médicos validados

Donación de órganos en Argentina: cuántas personas esperan un trasplante y por qué es clave la concientización
En el marco del día nacional, cifras, campañas y relatos de niños y familias revelan cómo una acción puede reescribir vidas marcadas por la espera

Día Mundial de la Esclerosis Múltiple: el manejo de la niebla mental y la fatiga crónica
Aunque suele asociarse a problemas motores, esta enfermedad también provoca deterioro cognitivo en casi el 60% de los pacientes. Estos síntomas impactan en la calidad de vida y requieren detección y tratamiento tempranos

¿Son los suplementos de colágeno la mejor estrategia para detener el envejecimiento de la piel?
Especialistas destacan que la clave para conservar la firmeza y bienestar corporal reside en una alimentación variada y en el abandono de malos hábitos

Por qué el cerebro no aprende de sus propios errores al tomar decisiones, según un estudio
Una investigación experimental identificó que cerca del 90% de los voluntarios analizados mostró una desconexión persistente entre su yo presente y el yo que enfrentará elecciones más adelante


