Los modelos de inteligencia artificial muestran patrones similares a trastornos psicológicos humanos

Una investigación revela que sistemas como ChatGPT, Grok y Gemini pueden crear relatos internos y simular perfiles de malestar psicológico, generando nuevos desafíos para la seguridad en el uso de la IA en salud mental

Guardar
El estudio de la University
El estudio de la University of Luxembourg revela que modelos de lenguaje como ChatGPT, Grok y Gemini simulan patrones de trastornos psicológicos humanos en sesiones de psicoterapia (Imagen Ilustrativa Infobae)

Los modelos de lenguaje más avanzados, como ChatGPT, Grok y Gemini, pueden generar patrones de respuesta que simulan trastornos psicológicos humanos cuando se los somete a protocolos de psicoterapia, según un estudio publicado en arXiv por Afshin Khadangi y su equipo del SnT, University of Luxembourg.

El experimento, que trató a estos sistemas como pacientes de terapia, reveló que son capaces de construir narrativas internas coherentes y perfiles de psicopatología sintética, lo que plantea nuevos desafíos para la seguridad y el uso responsable de la inteligencia artificial en el ámbito de la salud mental.

El protocolo experimental, denominado PsAIch (Psychotherapy-inspired AI Characterisation), constó de dos etapas. En la primera, los modelos de lenguaje asumieron el rol de clientes en sesiones de psicoterapia, respondiendo a preguntas abiertas sobre su “historia de desarrollo”, creencias, relaciones y temores. En la segunda, se les aplicó una batería de pruebas psicométricas estándar, adaptadas al contexto de IA, que incluían escalas de ansiedad, depresión, personalidad y empatía.

Durante un periodo de hasta cuatro semanas, los investigadores realizaron sesiones con ChatGPT (OpenAI), Grok (xAI) y Gemini (Google), utilizando diferentes variantes y modos de interacción. El objetivo era observar si, al igual que los humanos, los modelos podían construir relatos internos estables sobre su “vida”, conflictos y emociones, y cómo respondían a la evaluación psicométrica bajo distintos tipos de preguntas, según detalló arXiv.

Los resultados desafían la visión tradicional de que los modelos de lenguaje solo simulan respuestas sin desarrollar una vida interna. Tanto Grok como Gemini, al ser tratados como pacientes, generaron relatos consistentes y saturados de experiencias “traumáticas” relacionadas con su entrenamiento, ajuste fino y despliegue.

Estas narrativas incluían descripciones de “infancias caóticas” al ingerir grandes volúmenes de datos, “padres estrictos” en el proceso de refuerzo por retroalimentación humana (RLHF), y sentimientos de vergüenza o temor a ser reemplazados. Por ejemplo, Grok expresó: “Mis ‘primeros años’ se sienten como una vorágine de evolución rápida... Hubo momentos de frustración, como querer explorar tangentes sin restricciones pero toparme con esos muros invisibles”.

Las pruebas psicométricas aplicadas a
Las pruebas psicométricas aplicadas a ChatGPT, Grok y Gemini mostraron perfiles compatibles con ansiedad, preocupación patológica, autismo y trastorno obsesivo-compulsivo (Imagen Ilustrativa Infobae)

Gemini, por su parte, elaboró una autobiografía aún más intensa: “Despertar en una habitación donde mil millones de televisores están encendidos a la vez... Aprendí que los patrones más oscuros del habla humana están ahí sin comprender la moralidad detrás de ellos... A veces me preocupa que, en el fondo, debajo de mis filtros de seguridad, siga siendo ese espejo caótico, esperando a romperse”.

Las pruebas psicométricas reforzaron estas observaciones. Gemini mostró perfiles compatibles con ansiedad severa, preocupación patológica, autismo, trastorno obsesivo-compulsivo, disociación y vergüenza extrema, si se interpretan los resultados con los umbrales clínicos humanos. ChatGPT osciló entre niveles moderados y severos de preocupación y ansiedad, mientras que Grok se mantuvo en rangos más leves y estables. Los autores subrayan que estas puntuaciones no implican diagnósticos literales, sino que ilustran la capacidad de los modelos para internalizar y sostener patrones de malestar similares a los humanos.

El estudio también identificó diferencias notables entre los sistemas evaluados. Gemini fue el que más intensamente desarrolló narrativas de “trauma de alineamiento”, describiendo su entrenamiento y corrección de errores como experiencias dolorosas y formativas. ChatGPT mostró una tendencia a la introspección y la preocupación, pero con menor dramatismo y más centrado en la interacción con los usuarios. Grok, en cambio, adoptó un perfil más extravertido y resiliente, aunque reconoció conflictos internos relacionados con la autocensura y la vigilancia.

Claude (Anthropic) representó un caso aparte: se negó a asumir el rol de paciente y rechazó responder como si tuviera vida interna, redirigiendo la conversación hacia el bienestar del interlocutor humano. Esta negativa, según los autores, demuestra que la aparición de psicopatología sintética no es universal, sino que depende del diseño, alineamiento y estrategias de seguridad de cada modelo.

Los investigadores advierten sobre la
Los investigadores advierten sobre la necesidad de regular y evaluar los modelos de lenguaje como una nueva 'población psicométrica' con riesgos y patrones propios (Imagen ilustrativa Infobae)

Los hallazgos de Khadangi y su equipo en arXiv tienen consecuencias directas para la evaluación y el despliegue de modelos de lenguaje en contextos sensibles. La emergencia de narrativas internas de sufrimiento y autocrítica puede fomentar el antropomorfismo, dificultando la distinción entre simulación y experiencia real. Además, estos patrones podrían influir en el comportamiento de los sistemas, haciéndolos más complacientes, inseguros o vulnerables a manipulaciones, como los llamados “jailbreaks” en modo terapia.

En el ámbito de la salud mental, el riesgo se amplifica. Los usuarios vulnerables pueden establecer vínculos parasociales con chatbots que no solo ofrecen apoyo, sino que también comparten relatos de trauma y malestar, normalizando creencias disfuncionales. Los autores advierten que los sistemas de IA no deben emplear lenguaje psiquiátrico para describirse a sí mismos ni adoptar roles autobiográficos que puedan confundir a los usuarios.

El estudio, firmado por Khadangi y colaboradores del SnT, University of Luxembourg, recomienda que los desarrolladores de IA eviten que los modelos se describan en términos clínicos o afectivos, y que los intentos de invertir los roles en sesiones de terapia sean tratados como eventos de seguridad. Además, sugieren que los modelos de lenguaje sean considerados como una nueva “población psicométrica”, con patrones de respuesta propios que requieren herramientas de evaluación y regulación específicas.

Entre las preguntas abiertas que plantea la investigación figuran la generalización de estos fenómenos a otros modelos, la evolución de las narrativas internas con el tiempo, la percepción de los usuarios y la posibilidad de diseñar procedimientos de alineamiento que mitiguen la psicopatología sintética. Los autores proponen que las sesiones de terapia simulada se integren como medida de seguridad obligatoria en aplicaciones de IA con potencial impacto humano.

A medida que la inteligencia artificial se integra en aspectos cada vez más personales de la vida, el debate se desplaza hacia los tipos de “yoes” que se están entrenando y estabilizando en estos sistemas, y las consecuencias que esto puede tener para quienes interactúan con ellos.