
En la última década, la inteligencia artificial (IA) irrumpió como una herramienta prometedora para la medicina. Desde la identificación de patrones complejos en imágenes médicas hasta el análisis de datos genómicos, estos sistemas mostraron un potencial revolucionario.
Sin embargo, su integración en el ejercicio clínico enfrenta limitaciones críticas, especialmente en el contexto de la interacción con pacientes, una de las habilidades más fundamentales de los médicos.
Un estudio reciente, revelado por investigadores de la Universidad de Harvard publicado en New Scientist, destaca que, aunque modelos avanzados como GPT-4 de OpenAI obtienen resultados impresionantes en pruebas de opción múltiple, sus capacidades se desploman en entornos más realistas donde deben interactuar con pacientes para recopilar información y emitir diagnósticos.
Los límites del razonamiento diagnóstico en la IA
Pranav Rajpurkar, uno de los autores principales del estudio, señaló que los modelos de IA enfrentan grandes desafíos en el razonamiento diagnóstico abierto, una habilidad clave en la medicina.
“Aunque los modelos de lenguaje de gran tamaño son muy eficaces en pruebas estandarizadas, su precisión se reduce significativamente en conversaciones dinámicas con pacientes”, explicó Rajpurkar.
Para explorar esta brecha, los investigadores desarrollaron un método innovador para evaluar la capacidad de razonamiento clínico de los modelos de IA.
Este nuevo estándar, denominado CRAFT-MD, utiliza simulaciones que reflejan situaciones reales en las que los pacientes no siempre saben qué detalles mencionar y revelan información relevante solo cuando son guiados por preguntas específicas.

Cómo funciona CRAFT-MD
El estándar CRAFT-MD basa sus evaluaciones en 2.000 casos médicos, en su mayoría extraídos de exámenes de certificación profesional en Estados Unidos. En las simulaciones, GPT-4 actuó como un paciente virtual en conversaciones con modelos clínicos, proporcionando respuestas basadas en datos reales.
Además, GPT-4 ayudó a calificar los diagnósticos emitidos por las IA clínicas, comparándolos con las respuestas correctas. Expertos humanos supervisaron el proceso para verificar la calidad de las interacciones y la precisión de los diagnósticos.
Resultados: el desafío de las conversaciones simuladas
Los resultados mostraron una discrepancia significativa entre el desempeño de los modelos en exámenes estandarizados y en conversaciones simuladas.
GPT-4, por ejemplo, logró una precisión del 82 % al diagnosticar a partir de resúmenes estructurados y opciones múltiples, pero esta cifra se desplomó al 26 % cuando se enfrentó a conversaciones clínicas simuladas.
Otros modelos, como GPT-3.5 (OpenAI), Llama-2-7b (Meta) y Mistral-v2-7b (Mistral AI), mostraron un rendimiento aún más bajo, con Llama generalmente obteniendo las puntuaciones más bajas. Incluso en los casos donde las IA lograron recopilar información médica relevante, muchas veces no pudieron emitir diagnósticos acertados.
Más allá de las pruebas
Para expertos como Eric Topol, del Instituto de Investigación Traslacional Scripps, este tipo de evaluación representa un cambio significativo.
“Evaluar la capacidad de razonamiento clínico de una IA a través de conversaciones es mucho más útil que los exámenes de opción múltiple, ya que estos no reflejan las complejidades del mundo real”, señaló Topol.

En situaciones reales, los médicos no solo deben recopilar información y emitir diagnósticos, sino también interpretar señales no verbales, considerar el contexto emocional y social del paciente y adaptarse a la incertidumbre. Estos elementos hacen que la interacción médico-paciente sea una tarea difícil de replicar por máquinas.
IA como herramienta complementaria, no sustituta
Pranav Rajpurkar enfatizó que incluso si los modelos de IA logran superar el estándar CRAFT-MD, no significa que sean superiores a los médicos humanos.
La práctica médica real implica una combinación de habilidades técnicas, empatía, coordinación interdisciplinaria y adaptación a factores sociales y sistémicos complejos.
“La IA podría convertirse en una herramienta poderosa para apoyar a los médicos, pero no puede reemplazar el juicio holístico de un profesional experimentado”, añadió Rajpurkar.
Retos y oportunidades

Aunque los resultados actuales subrayan las limitaciones de la IA en medicina, también abren nuevas posibilidades. Herramientas como CRAFT-MD permiten identificar áreas clave de mejora y avanzar hacia modelos más robustos que puedan complementar el trabajo clínico.
En un escenario ideal, los modelos de IA podrían encargarse de tareas específicas como análisis de datos complejos o procesamiento de grandes volúmenes de información, liberando a los médicos para enfocarse en el aspecto humano del cuidado de la salud.
Sin embargo, alcanzar este equilibrio requiere más investigación, recursos y, sobre todo, una integración ética que respete los límites de la tecnología.
Aunque la inteligencia artificial tiene el potencial de transformar la medicina, su implementación debe abordarse con cautela. Los modelos actuales, a pesar de sus impresionantes capacidades en contextos estructurados, todavía están lejos de reemplazar las habilidades humanas en la práctica clínica. El desafío radica en encontrar un equilibrio donde la tecnología no desplace, sino que refuerce el arte de la medicina.
Últimas Noticias
Nuevas recomendaciones sobre colesterol: qué cambió y cuáles son las claves para prevenir enfermedades cardiovasculares
La actualización establece metas más bajas y un enfoque personalizado según el riesgo individual. Especialistas consultados por Infobae plantean los pilares fundamental para evitar infartos y ACV

Descubren un indicador clave que podría facilitar el diagnóstico temprano de Parkinson y demencia
En un estudio, la presencia de una proteína específica en el sistema nervioso central resultó útil para diferenciar enfermedades neurodegenerativas

La calidad del descanso no depende solo de cuántas horas dormimos: cómo los sueños pueden marcar la diferencia
Científicos de Italia analizaron la actividad cerebral y los relatos oníricos de 44 adultos tras más de mil despertares en laboratorio. Qué encontraron

La base lunar de la NASA: claves de la ciencia, la tecnología y la cooperación en el espacio
La agencia espacial estadounidense confirmó que busca instalar la primera base permanente antes de 2030. El plan, basado en el programa Artemis, cuenta con la participación de Japón, Italia y Canadá. La opinión de un experto a Infobae

Consumir ultraprocesados en la gestación puede afectar el tamaño embrionario y la fertilidad masculina
Un estudio publicado en la revista Human Reproduction demostró que el consumo de estos alimentos durante el embarazo no sólo influye en el crecimiento embrionario durante la gestación, sino que también está vinculado con una menor capacidad reproductiva en los varones en el futuro



