Cuando ChatGPT, Claude y Gemini se distraen: el test de psicología experimental de 1935 que las IA no pueden resolver

Se trata de un test de control ejecutivo que el cerebro humano adulto puede resolver y que sistemas como GPT-5, Claude Opus y Gemini fallan. El experimento invita a pensar en cómo usamos la IA en el aula y en los entornos de trabajo complejos

Guardar
Google icon
Oficina moderna y vacía con filas de monitores encendidos mostrando gráficos de barras y la frase "Inteligencia Artificial" en pantallas luminosas.
El experimento consistía en definir el color en elq ue estaba escrita una palabra sin tener en cuenta qué decía. Algunas IA fallaron en el 90% de las veces (Imagen Ilustrativa Infobae)

En momentos donde la automatización y la velocidad algorítmica parecen reinar, el cerebro humano sigue demostrando su capacidad para sobresalir cuando el entorno se complejiza.

En 1935, John Ridley Stroop, un estudiante de doctorado estadounidense dio a conocer el “Efecto Stroop”. Un experimento simple que da cuenta de la flexibilidad de la inteligencia humana.

PUBLICIDAD

Al mostrar a los participantes palabras que nombraban colores en tintas impresas que no coincidían con su significado (ejemplo un color verde con la palabra rojo) se les pedía que ignoren lo escrito y que digan el color que veían. Si bien, cuando la palabra “rojo” está escrita en tinta azul, el cerebro humano tarda más en responder, pero se demostró que los seres humanos pueden sortear el obstáculo de la no coincidencia y dar la respuesta correcta.

Visualización abstracta de una red de nodos y filamentos luminosos naranjas y azules contra un fondo oscuro, con un efecto de profundidad de campo y múltiples conexiones ramificadas.
El test de Stroop se ha utilizado durante décadas para estudiar la atención (Imagen Ilustrativa Infobae)

El punto ciego de la IA

Un equipo de investigadores de la City University of New York y la Texas A&M University decidió aplicar este test experimental a los modelos de inteligencia artificial generativa.

PUBLICIDAD

Los resultados, publicados el 2 de junio de 2026 en la revista PNAS Nexus señalan que GPT-5, Claude Opus 4.1 y Gemini 2.5 fallaron de manera sistemática en dar la respuesta correcta. El diseño del estudio, firmado por Suketu Chandrakant Patel, Hongbin Wang y Jin Fan, replicó el test de Stroop clásico adaptado para grandes modelos de lenguaje (LLMs).

A los modelos se les presentaron listas de palabras de colores impresas en tintas que no coincidían y se les pidió que nombraran el color de la tinta, ignorando el significado de la palabra escrita, tal como ocurrió en 1935 con humanos.

Los investigadores encontraron que cuando la palabra y el color de la tinta no coincidían, los LLMs se desempeñaban bien con una lista de hasta cinco palabras. Pero a medida que el experimento continuaba y la lista de palabras se hacía más larga, el rendimiento de la IA comenzaba a fallar.

Algunos sistemas líderes cayeron de más del 90% de precisión; mientras que el mismo experimento con humanos- a una velocidad diferente- señala que pueden mantener un rendimiento estable e incluso con alta precisión incluso en listas largas.

Un cubo azul brillante con las letras "AI" en sus caras se eleva sobre una superficie oscura de circuito electrónico, rodeado de líneas de luz azul
El motor de todos los grandes modelos de IA actuales fue diseñado para orientar la atención hacia patrones relevantes en los datos, pero no para inhibir respuestas automáticas ante la competencia de los mismos (Imagen Ilustrativa Infobae)

El control ejecutivo de la atención

El test de Stroop se ha utilizado durante décadas para estudiar la atención, la concentración y el autocontrol. En neuropsicología clínica, se usa para detectar déficits en funciones ejecutivas en personas con TDAH, Alzheimer y otras condiciones que afectan la atención.

La función ejecutiva de la atención es la capacidad de elegir en qué concentrarse cuando hay información que distrae y compite entre sí. Una situación no menor en tiempos de sobreinformación y pantallas.

El cerebro humano tiene la capacidad de focalizarse a partir de redes neuronales especializadas que trabajan en paralelo y se modulan entre sí. El motor de todos los grandes modelos de IA actuales fue diseñado para orientar la atención hacia patrones relevantes en los datos, pero no para inhibir respuestas automáticas ante la competencia de los mismos.

El modelo ve la palabra “rojo” y su tendencia entrenada a procesar texto es más fuerte que la instrucción de ignorarla. Cuantas más palabras hay en la lista, más acumulativa es la interferencia, hasta el colapso, algo que los humanos sí pueden lograr con menor o mayor dificultad.

Los autores señalan como salvedad que GPT-5 en modo ‘Thinking’ puede ejecutar código para asegurarse de realizar el test de Stroop correctamente, pero esto es esencialmente la IA evadiendo de manera ingeniosa sus propias limitaciones.

El monitoreo humano

Un modelo de IA que pierde el hilo de la instrucción no avisa que lo perdió. Sigue respondiendo con fluidez, con confianza aparente, pero la atención y el foco puede estar ya en otro lado.

Los investigadores sostienen que a la IA le falta el sistema de monitoreo de conflictos que usa el cerebro humano para detectar interferencias y ajustar la atención. Por ello la importancia mencionada una y otra vez del monitoreo de todo lo generado a partir de estos sistemas.

El estudio de Patel, Wang y Fan ofrece una brújula útil en contextos de aprendizaje: la IA actual es más confiable cuanto más acotada y breve es la tarea, y los riesgos de la falta de precisión y foco se vuelven notorios cuanto más extensa y contextualmente cargada es la tarea.

PUBLICIDAD

PUBLICIDAD

Últimas Noticias

Leer por placer desde la infancia crea un verdadero diferencial cerebral más allá de la educación formal

Dos investigaciones científicas recientes invitan a repensar la lectura no solo como habilidad técnica; el gusto por leer puede hacer una gran diferencia en el aprendizaje a lo largo de la vida

Leer por placer desde la infancia crea un verdadero diferencial cerebral más allá de la educación formal

Cuánto cobrarán los docentes universitarios tras el acuerdo en medio del reclamo de la Ley de Financiamiento

El Gobierno y la mayoría de los gremios universitarios acordaron una suba salarial del 24,33% para el personal universitario. Persisten reclamos por la Ley de Financiamiento y parte del sector docente sostiene un paro nacional

Cuánto cobrarán los docentes universitarios tras el acuerdo en medio del reclamo de la Ley de Financiamiento

Por la caída de la natalidad, el jardín de infantes podría alcanzar cobertura casi universal en 2027

La población de chicos de 3 a 5 años se redujo un 31% en 10 años: pasó de 2,3 millones a 1,6 millones. Estiman que, con planificación y una reorganización de los recursos actuales, se podría garantizar vacantes para todos los niños sin necesidad de construir aulas. La mayor deuda está en sala de 3

Por la caída de la natalidad, el jardín de infantes podría alcanzar cobertura casi universal en 2027

Universidades como agentes de cambio: de la formación en sostenibilidad al impacto social

El servicio social universitario permite que la formación en sostenibilidad salga del aula y se vincule con las necesidades reales de comunidades y organizaciones. Desde esa experiencia, las universidades fortalecen el vínculo entre conocimiento académico, responsabilidad social e impacto

Universidades como agentes de cambio: de la formación en sostenibilidad al impacto social

Daniel Valdez: “La inclusión no es un favor que depende de la buena voluntad de un maestro, debe ser un marco institucional, social y político a largo plazo”

El Doctor en Psicología por la Universidad Autónoma de Madrid y máster en Psicología General Sanitaria dialogó con Ticmas a raíz de su nuevo libro “Infancias aprendiendo” que busca ampliar la mirada sobre las diversidades en el aprendizaje

Daniel Valdez: “La inclusión no es un favor que depende de la buena voluntad de un maestro, debe ser un marco institucional, social y político a largo plazo”