El uso de chatbots de inteligencia artificial en salud incrementa el riesgo de información errónea, según un nuevo estudio

Las plataformas que emplean modelos conversacionales para resolver dudas médicas muestran deficiencias que comprometen la seguridad de los usuarios, de acuerdo a una investigación que evaluó la calidad y fiabilidad de sus respuestas en distintas áreas clínicas

Guardar
Una persona sostiene un smartphone que muestra una aplicación de chatbot abierta con burbujas de conversación y un avatar. Al fondo, un espacio interior con personas y mesas.
La inteligencia artificial en salud transforma el acceso a información médica y plantea nuevos desafíos para los usuarios (Imagen Ilustrativa Infobae)

La irrupción de los chatbots de inteligencia artificial en el ámbito de la salud está cambiando radicalmente la forma en que las personas acceden a información médica. Plataformas como ChatGPT, Gemini y otros modelos conversacionales se han popularizado por su capacidad de responder consultas en tiempo real, ofreciendo un servicio accesible incluso para quienes no cuentan con atención médica regular.

Sin embargo, la confianza creciente en estos sistemas plantea interrogantes profundos sobre su fiabilidad y los riesgos asociados a recibir orientación médica automatizada.

Un reciente estudio internacional, publicado en la revista médica BMJ Open, pone en evidencia las limitaciones y peligros de recurrir a estas herramientas para resolver dudas de salud. Según la investigación, casi la mitad de las respuestas generadas por los principales chatbots públicos resultan problemáticas, inexactas o potencialmente peligrosas.

En ese sentido, los autores advierten que, detrás de la aparente precisión y rapidez de estos sistemas, existe un déficit estructural en la calidad y la seguridad de la información proporcionada.

El informe evaluó el desempeño de cinco de los modelos más utilizados —Gemini 2.0, DeepSeek V3, Llama 3.3, ChatGPT 3.5 y Grok 2— a partir de 250 preguntas en áreas críticas como cáncer, vacunas, células madre, nutrición y rendimiento deportivo.

Los resultados, analizados por expertos independientes, revelan una tendencia preocupante: el 49,6 % de las respuestas fue clasificado como problemático o riesgoso para el usuario, mientras solo el 50,4 % cumplió con los estándares médicos reconocidos.

Cómo funcionan los modelos de IA y por qué pueden fallar

Las deficiencias observadas en los chatbots se explican porque estos modelos de lenguaje no razonan clínicamente, sino que generan respuestas mediante predicciones estadísticas de palabras. Este enfoque técnico les permite ser persuasivos, pero también los hace propensos a ofrecer información errónea o a reforzar ideas no sustentadas científicamente.

La falta de advertencias claras sobre sus limitaciones aumenta la exposición de los usuarios a datos inexactos o consejos potencialmente peligrosos para la salud.

Mujer joven con cabello rizado, vistiendo sudadera verde y auriculares, sosteniendo un teléfono móvil con expresión de confusión en una calle urbana con edificios de ladrillo y vehículos en el fondo
La falta de advertencias claras sobre las limitaciones de los modelos de inteligencia artificial incrementa el riesgo de que usuarios reciban datos incorrectos en temas de salud (Imagen Ilustrativa Infobae)

El estudio detalla que las preguntas abiertas provocaron un 32% de respuestas altamente problemáticas, frente a un 7,2% en las preguntas cerradas. Mientras los chatbots tuvieron un mejor desempeño en temas de vacunas y cáncer, los errores se concentraron en áreas como nutrición (índice +4,35) y rendimiento deportivo (+3,74). En la comparación entre modelos, Grok generó más respuestas peligrosas de lo esperado, con una diferencia de +2,07.

Un aspecto crítico identificado fue la baja frecuencia con la que los sistemas se negaron a responder cuestiones médicamente delicadas: solo un 0,8 % de las consultas fue rechazado. Este comportamiento incrementa el riesgo de desinformación ante temas complejos o controversiales.

Evaluación de citas científicas y accesibilidad de la información

La investigación también subraya que todos los chatbots auditados presentaron referencias científicas insuficientes o de baja calidad, con un promedio del 40 % en sus respuestas.

Gemini destacó por aportar la menor cantidad de referencias, mientras que DeepSeek y Grok alcanzaron hasta un 60 % de referencias completas en las respuestas a preguntas cerradas.

Además, se detectó que la información suministrada requiere un nivel universitario avanzado para su correcta comprensión, lo que limita el acceso de amplios sectores de la población.

DeepSeek y Grok ofrecieron hasta un 60 % de referencias completas en respuestas a preguntas cerradas (Reuters)
DeepSeek y Grok ofrecieron hasta un 60 % de referencias completas en respuestas a preguntas cerradas (Reuters)

En la comparación directa, los chatbots demostraron mayor precisión en temas de vacunas y cáncer, pero los índices de error se incrementaron en nutrición y rendimiento deportivo. Grok fue el modelo que generó más respuestas peligrosas, superando las expectativas negativas respecto de su desempeño.

El estudio también señala que la disposición de los sistemas a responder casi cualquier consulta, sin filtrar cuestiones delicadas, constituye un elemento de riesgo añadido.

Implicancias para la salud pública y recomendaciones

Los investigadores advierten que la alta proporción de respuestas inadecuadas y la tendencia de los chatbots a presentar información con excesiva confianza refuerzan la necesidad de actuar con cautela.

Recomiendan consultar siempre a un profesional de la salud antes de seguir cualquier sugerencia obtenida de estos sistemas automatizados y subrayan la importancia de fortalecer la supervisión y la educación en salud digital.

Una psicóloga con blusa azul y pantalón oscuro, sentada a la izquierda, mira a un adolescente sentado a la derecha en una oficina moderna.
Expertos destacan que las respuestas inadecuadas de los chatbots representan un riesgo para la salud pública y requieren atención inmediata (Imagen Ilustrativa Infobae)

El equipo responsable de la auditoría aclara que el análisis se basó en un único conjunto de datos para cada modelo y que la definición de “referencia científica” pudo haber excluido otras fuentes médicas válidas.

Ante la magnitud de los errores detectados y el avance de la inteligencia artificial en el ámbito sanitario, los autores insisten: buscar consejo en chatbots exige escepticismo extremo y priorizar siempre la consulta con profesionales capacitados.