En momentos donde la automatización y la velocidad algorítmica parecen reinar, el cerebro humano sigue demostrando su capacidad para sobresalir cuando el entorno se complejiza.
En 1935, John Ridley Stroop, un estudiante de doctorado estadounidense dio a conocer el “Efecto Stroop”. Un experimento simple que da cuenta de la flexibilidad de la inteligencia humana.
Al mostrar a los participantes palabras que nombraban colores en tintas impresas que no coincidían con su significado (ejemplo un color verde con la palabra rojo) se les pedía que ignoren lo escrito y que digan el color que veían. Si bien, cuando la palabra “rojo” está escrita en tinta azul, el cerebro humano tarda más en responder, pero se demostró que los seres humanos pueden sortear el obstáculo de la no coincidencia y dar la respuesta correcta.
PUBLICIDAD
El punto ciego de la IA
Un equipo de investigadores de la City University of New York y la Texas A&M University decidió aplicar este test experimental a los modelos de inteligencia artificial generativa.
Los resultados, publicados el 2 de junio de 2026 en la revista PNAS Nexus señalan que GPT-5, Claude Opus 4.1 y Gemini 2.5 fallaron de manera sistemática en dar la respuesta correcta. El diseño del estudio, firmado por Suketu Chandrakant Patel, Hongbin Wang y Jin Fan, replicó el test de Stroop clásico adaptado para grandes modelos de lenguaje (LLMs).
PUBLICIDAD
A los modelos se les presentaron listas de palabras de colores impresas en tintas que no coincidían y se les pidió que nombraran el color de la tinta, ignorando el significado de la palabra escrita, tal como ocurrió en 1935 con humanos.
Los investigadores encontraron que cuando la palabra y el color de la tinta no coincidían, los LLMs se desempeñaban bien con una lista de hasta cinco palabras. Pero a medida que el experimento continuaba y la lista de palabras se hacía más larga, el rendimiento de la IA comenzaba a fallar.
Algunos sistemas líderes cayeron de más del 90% de precisión; mientras que el mismo experimento con humanos- a una velocidad diferente- señala que pueden mantener un rendimiento estable e incluso con alta precisión incluso en listas largas.
PUBLICIDAD
El control ejecutivo de la atención
El test de Stroop se ha utilizado durante décadas para estudiar la atención, la concentración y el autocontrol. En neuropsicología clínica, se usa para detectar déficits en funciones ejecutivas en personas con TDAH, Alzheimer y otras condiciones que afectan la atención.
La función ejecutiva de la atención es la capacidad de elegir en qué concentrarse cuando hay información que distrae y compite entre sí. Una situación no menor en tiempos de sobreinformación y pantallas.
PUBLICIDAD
El cerebro humano tiene la capacidad de focalizarse a partir de redes neuronales especializadas que trabajan en paralelo y se modulan entre sí. El motor de todos los grandes modelos de IA actuales fue diseñado para orientar la atención hacia patrones relevantes en los datos, pero no para inhibir respuestas automáticas ante la competencia de los mismos.
El modelo ve la palabra “rojo” y su tendencia entrenada a procesar texto es más fuerte que la instrucción de ignorarla. Cuantas más palabras hay en la lista, más acumulativa es la interferencia, hasta el colapso, algo que los humanos sí pueden lograr con menor o mayor dificultad.
Los autores señalan como salvedad que GPT-5 en modo ‘Thinking’ puede ejecutar código para asegurarse de realizar el test de Stroop correctamente, pero esto es esencialmente la IA evadiendo de manera ingeniosa sus propias limitaciones.
PUBLICIDAD
El monitoreo humano
Un modelo de IA que pierde el hilo de la instrucción no avisa que lo perdió. Sigue respondiendo con fluidez, con confianza aparente, pero la atención y el foco puede estar ya en otro lado.
Los investigadores sostienen que a la IA le falta el sistema de monitoreo de conflictos que usa el cerebro humano para detectar interferencias y ajustar la atención. Por ello la importancia mencionada una y otra vez del monitoreo de todo lo generado a partir de estos sistemas.
PUBLICIDAD
El estudio de Patel, Wang y Fan ofrece una brújula útil en contextos de aprendizaje: la IA actual es más confiable cuanto más acotada y breve es la tarea, y los riesgos de la falta de precisión y foco se vuelven notorios cuanto más extensa y contextualmente cargada es la tarea.