Cuando ChatGPT, Claude y Gemini se distraen: el test de psicología experimental de 1935 que las IA no pueden resolver

El experimento consistía en definir el color en elq ue estaba escrita una palabra sin tener en cuenta qué decía. Algunas IA fallaron en el 90% de las veces (Imagen Ilustrativa Infobae)

En momentos donde la automatización y la velocidad algorítmica parecen reinar, el cerebro humano sigue demostrando su capacidad para sobresalir cuando el entorno se complejiza.

En 1935, John Ridley Stroop, un estudiante de doctorado estadounidense dio a conocer el “Efecto Stroop”. Un experimento simple que da cuenta de la flexibilidad de la inteligencia humana.

Al mostrar a los participantes palabras que nombraban colores en tintas impresas que no coincidían con su significado (ejemplo un color verde con la palabra rojo) se les pedía que ignoren lo escrito y que digan el color que veían. Si bien, cuando la palabra “rojo” está escrita en tinta azul, el cerebro humano tarda más en responder, pero se demostró que los seres humanos pueden sortear el obstáculo de la no coincidencia y dar la respuesta correcta.

El test de Stroop se ha utilizado durante décadas para estudiar la atención (Imagen Ilustrativa Infobae)

El punto ciego de la IA

Un equipo de investigadores de la City University of New York y la Texas A&M University decidió aplicar este test experimental a los modelos de inteligencia artificial generativa.

Los resultados, publicados el 2 de junio de 2026 en la revista PNAS Nexus señalan que GPT-5, Claude Opus 4.1 y Gemini 2.5 fallaron de manera sistemática en dar la respuesta correcta. El diseño del estudio, firmado por Suketu Chandrakant Patel, Hongbin Wang y Jin Fan, replicó el test de Stroop clásico adaptado para grandes modelos de lenguaje (LLMs).

A los modelos se les presentaron listas de palabras de colores impresas en tintas que no coincidían y se les pidió que nombraran el color de la tinta, ignorando el significado de la palabra escrita, tal como ocurrió en 1935 con humanos.

Los investigadores encontraron que cuando la palabra y el color de la tinta no coincidían, los LLMs se desempeñaban bien con una lista de hasta cinco palabras. Pero a medida que el experimento continuaba y la lista de palabras se hacía más larga, el rendimiento de la IA comenzaba a fallar.

Algunos sistemas líderes cayeron de más del 90% de precisión; mientras que el mismo experimento con humanos- a una velocidad diferente- señala que pueden mantener un rendimiento estable e incluso con alta precisión incluso en listas largas.

El motor de todos los grandes modelos de IA actuales fue diseñado para orientar la atención hacia patrones relevantes en los datos, pero no para inhibir respuestas automáticas ante la competencia de los mismos (Imagen Ilustrativa Infobae)

El control ejecutivo de la atención

El test de Stroop se ha utilizado durante décadas para estudiar la atención, la concentración y el autocontrol. En neuropsicología clínica, se usa para detectar déficits en funciones ejecutivas en personas con TDAH, Alzheimer y otras condiciones que afectan la atención.

La función ejecutiva de la atención es la capacidad de elegir en qué concentrarse cuando hay información que distrae y compite entre sí. Una situación no menor en tiempos de sobreinformación y pantallas.

El cerebro humano tiene la capacidad de focalizarse a partir de redes neuronales especializadas que trabajan en paralelo y se modulan entre sí. El motor de todos los grandes modelos de IA actuales fue diseñado para orientar la atención hacia patrones relevantes en los datos, pero no para inhibir respuestas automáticas ante la competencia de los mismos.

El modelo ve la palabra “rojo” y su tendencia entrenada a procesar texto es más fuerte que la instrucción de ignorarla. Cuantas más palabras hay en la lista, más acumulativa es la interferencia, hasta el colapso, algo que los humanos sí pueden lograr con menor o mayor dificultad.

Los autores señalan como salvedad que GPT-5 en modo ‘Thinking’ puede ejecutar código para asegurarse de realizar el test de Stroop correctamente, pero esto es esencialmente la IA evadiendo de manera ingeniosa sus propias limitaciones.

El monitoreo humano

Un modelo de IA que pierde el hilo de la instrucción no avisa que lo perdió. Sigue respondiendo con fluidez, con confianza aparente, pero la atención y el foco puede estar ya en otro lado.

Los investigadores sostienen que a la IA le falta el sistema de monitoreo de conflictos que usa el cerebro humano para detectar interferencias y ajustar la atención. Por ello la importancia mencionada una y otra vez del monitoreo de todo lo generado a partir de estos sistemas.

El estudio de Patel, Wang y Fan ofrece una brújula útil en contextos de aprendizaje: la IA actual es más confiable cuanto más acotada y breve es la tarea, y los riesgos de la falta de precisión y foco se vuelven notorios cuanto más extensa y contextualmente cargada es la tarea.

Inteligencia artificial

Más Noticias

Leer por placer desde la infancia crea un verdadero diferencial cerebral más allá de la educación formal

Dos investigaciones científicas recientes invitan a repensar la lectura no solo como habilidad técnica; el gusto por leer puede hacer una gran diferencia en el aprendizaje a lo largo de la vida

Cuánto cobrarán los docentes universitarios tras el acuerdo en medio del reclamo de la Ley de Financiamiento

El Gobierno y la mayoría de los gremios universitarios acordaron una suba salarial del 24,33% para el personal universitario. Persisten reclamos por la Ley de Financiamiento y parte del sector docente sostiene un paro nacional

Por la caída de la natalidad, el jardín de infantes podría alcanzar cobertura casi universal en 2027

La población de chicos de 3 a 5 años se redujo un 31% en 10 años: pasó de 2,3 millones a 1,6 millones. Estiman que, con planificación y una reorganización de los recursos actuales, se podría garantizar vacantes para todos los niños sin necesidad de construir aulas. La mayor deuda está en sala de 3

Universidades como agentes de cambio: de la formación en sostenibilidad al impacto social

El servicio social universitario permite que la formación en sostenibilidad salga del aula y se vincule con las necesidades reales de comunidades y organizaciones. Desde esa experiencia, las universidades fortalecen el vínculo entre conocimiento académico, responsabilidad social e impacto

Daniel Valdez: “La inclusión no es un favor que depende de la buena voluntad de un maestro, debe ser un marco institucional, social y político a largo plazo”

El Doctor en Psicología por la Universidad Autónoma de Madrid y máster en Psicología General Sanitaria dialogó con Ticmas a raíz de su nuevo libro “Infancias aprendiendo” que busca ampliar la mirada sobre las diversidades en el aprendizaje

Temas Relacionados