
En la última década, la inteligencia artificial (IA) irrumpió como una herramienta prometedora para la medicina. Desde la identificación de patrones complejos en imágenes médicas hasta el análisis de datos genómicos, estos sistemas mostraron un potencial revolucionario.
Sin embargo, su integración en el ejercicio clínico enfrenta limitaciones críticas, especialmente en el contexto de la interacción con pacientes, una de las habilidades más fundamentales de los médicos.
Un estudio reciente, revelado por investigadores de la Universidad de Harvard publicado en New Scientist, destaca que, aunque modelos avanzados como GPT-4 de OpenAI obtienen resultados impresionantes en pruebas de opción múltiple, sus capacidades se desploman en entornos más realistas donde deben interactuar con pacientes para recopilar información y emitir diagnósticos.
Los límites del razonamiento diagnóstico en la IA
Pranav Rajpurkar, uno de los autores principales del estudio, señaló que los modelos de IA enfrentan grandes desafíos en el razonamiento diagnóstico abierto, una habilidad clave en la medicina.
“Aunque los modelos de lenguaje de gran tamaño son muy eficaces en pruebas estandarizadas, su precisión se reduce significativamente en conversaciones dinámicas con pacientes”, explicó Rajpurkar.
Para explorar esta brecha, los investigadores desarrollaron un método innovador para evaluar la capacidad de razonamiento clínico de los modelos de IA.
Este nuevo estándar, denominado CRAFT-MD, utiliza simulaciones que reflejan situaciones reales en las que los pacientes no siempre saben qué detalles mencionar y revelan información relevante solo cuando son guiados por preguntas específicas.

Cómo funciona CRAFT-MD
El estándar CRAFT-MD basa sus evaluaciones en 2.000 casos médicos, en su mayoría extraídos de exámenes de certificación profesional en Estados Unidos. En las simulaciones, GPT-4 actuó como un paciente virtual en conversaciones con modelos clínicos, proporcionando respuestas basadas en datos reales.
Además, GPT-4 ayudó a calificar los diagnósticos emitidos por las IA clínicas, comparándolos con las respuestas correctas. Expertos humanos supervisaron el proceso para verificar la calidad de las interacciones y la precisión de los diagnósticos.
Resultados: el desafío de las conversaciones simuladas
Los resultados mostraron una discrepancia significativa entre el desempeño de los modelos en exámenes estandarizados y en conversaciones simuladas.
GPT-4, por ejemplo, logró una precisión del 82 % al diagnosticar a partir de resúmenes estructurados y opciones múltiples, pero esta cifra se desplomó al 26 % cuando se enfrentó a conversaciones clínicas simuladas.
Otros modelos, como GPT-3.5 (OpenAI), Llama-2-7b (Meta) y Mistral-v2-7b (Mistral AI), mostraron un rendimiento aún más bajo, con Llama generalmente obteniendo las puntuaciones más bajas. Incluso en los casos donde las IA lograron recopilar información médica relevante, muchas veces no pudieron emitir diagnósticos acertados.
Más allá de las pruebas
Para expertos como Eric Topol, del Instituto de Investigación Traslacional Scripps, este tipo de evaluación representa un cambio significativo.
“Evaluar la capacidad de razonamiento clínico de una IA a través de conversaciones es mucho más útil que los exámenes de opción múltiple, ya que estos no reflejan las complejidades del mundo real”, señaló Topol.

En situaciones reales, los médicos no solo deben recopilar información y emitir diagnósticos, sino también interpretar señales no verbales, considerar el contexto emocional y social del paciente y adaptarse a la incertidumbre. Estos elementos hacen que la interacción médico-paciente sea una tarea difícil de replicar por máquinas.
IA como herramienta complementaria, no sustituta
Pranav Rajpurkar enfatizó que incluso si los modelos de IA logran superar el estándar CRAFT-MD, no significa que sean superiores a los médicos humanos.
La práctica médica real implica una combinación de habilidades técnicas, empatía, coordinación interdisciplinaria y adaptación a factores sociales y sistémicos complejos.
“La IA podría convertirse en una herramienta poderosa para apoyar a los médicos, pero no puede reemplazar el juicio holístico de un profesional experimentado”, añadió Rajpurkar.
Retos y oportunidades

Aunque los resultados actuales subrayan las limitaciones de la IA en medicina, también abren nuevas posibilidades. Herramientas como CRAFT-MD permiten identificar áreas clave de mejora y avanzar hacia modelos más robustos que puedan complementar el trabajo clínico.
En un escenario ideal, los modelos de IA podrían encargarse de tareas específicas como análisis de datos complejos o procesamiento de grandes volúmenes de información, liberando a los médicos para enfocarse en el aspecto humano del cuidado de la salud.
Sin embargo, alcanzar este equilibrio requiere más investigación, recursos y, sobre todo, una integración ética que respete los límites de la tecnología.
Aunque la inteligencia artificial tiene el potencial de transformar la medicina, su implementación debe abordarse con cautela. Los modelos actuales, a pesar de sus impresionantes capacidades en contextos estructurados, todavía están lejos de reemplazar las habilidades humanas en la práctica clínica. El desafío radica en encontrar un equilibrio donde la tecnología no desplace, sino que refuerce el arte de la medicina.
Últimas Noticias
Cuál es el órgano poco conocido que anticipa el riesgo de enfermedades y mortalidad
Investigadores demostraron que su buen estado se relaciona con una mayor esperanza de vida y menor aparición de patologías graves. Por qué es relevante y cómo estudian potenciar su función

Por qué los primeros resfríos en la guardería pueden ser beneficiosos para los niños
Investigadores de University College London sostienen que las enfermedades leves en los jardines de infantes pueden cumplir un papel clave en el desarrollo del sistema inmunológico. Cómo estas patologías preparan al organismo para enfrentar futuras infecciones

El reflejo del bostezo: la sorprendente conexión entre empatía y vínculo social
La tendencia a imitar gestos involuntarios se observa tanto en humanos como en animales sociales. Investigaciones recientes explican el papel de las neuronas espejo y la importancia de los vínculos afectivos en este contagio

5 claves para optimizar la microbiota intestinal y favorecer la pérdida de peso
Un informe de Science Focus analizó cómo el ecosistema de microorganismos del sistema digestivo incide en el metabolismo y el control del apetito. Además, distintos expertos consultados por la revista científica detallaron estrategias basadas en evidencia para mejorar su equilibrio y acompañar la reducción de grasa corporal

Lo que ocurre en el cerebro de los mayores cuando el sueño pierde profundidad y continuidad
Expertos advierten que cambios cerebrales y hábitos diarios pueden fragmentar el sueño y dificultar la detección temprana de trastornos neurodegenerativos



