Ni “premio”, ni “castigo”: cómo la memoria y los hábitos influyen en el desarrollo de nuevas habilidades, según un estudio

Investigaciones recientes sugieren que pequeñas acciones repetidas y el uso consciente de la atención pueden marcar una diferencia significativa en el aprendizaje continuo y en la capacidad para incorporar conductas útiles en la vida diaria

Guardar
La memoria de trabajo y
La memoria de trabajo y los hábitos influyen más que las recompensas en la toma de decisiones cotidianas (Imagen Ilustrativa Infobae)

La ciencia lleva décadas explicando cómo los humanos aprendemos en función de premios y castigos, un proceso que se ha comparado con el adiestramiento de animales o incluso el funcionamiento de robots.

Pero ¿y si nuestras decisiones cotidianas y nuestros hábitos las guiara algo mucho más complejo y menos automático de lo que se pensaba? Una nueva investigación sacude los cimientos de la teoría clásica del aprendizaje por refuerzo y propone una mirada más rica y humana al misterio de cómo incorporamos conductas útiles o evitamos errores.

Un modelo novedoso desarrollado por Anne G. E. Collins, investigadora de la Universidad de California, Berkeley, replantea la comprensión tradicional del aprendizaje por refuerzo en humanos.

Según un artículo publicado en Medical Xpress, Collins propone que la memoria de trabajo y los hábitos influyen de manera más relevante en la toma de decisiones basada en recompensas, desafiando el paradigma predominante en neurociencia y psicología. El estudio fue publicado en la revista Nature Human Behaviour.

¿Qué es el aprendizaje por refuerzo y cómo lo replantea Collins?

El modelo clásico, conocido como aprendizaje por refuerzo (RL, por sus siglas en inglés), sostiene que personas y animales aprenden, igual que un perro que recibe una golosina o un llamado de atención, repitiendo lo que les da buenos resultados y evitando lo que no.

Este enfoque se utiliza incluso para programar algoritmos de inteligencia artificial. ¿El truco? Se basa en comparar lo que se espera obtener y el resultado obtenido realmente, proceso en el que participa la dopamina como señal de éxito o fracaso.

El modelo tradicional de aprendizaje
El modelo tradicional de aprendizaje por refuerzo resulta insuficiente para explicar la complejidad del aprendizaje humano (Imagen Ilustrativa Infobae)

Pero Collins plantea que no somos tan predecibles como una máquina o una mascota: “Nuestro cerebro tiene múltiples mecanismos para aprender, y operan en paralelo, incluso cuando aprendemos cosas muy simples”, explicó la investigadora.

Imagina que tenes que recordar cuáles llaves abren distintas puertas: si hay solo dos, resulta sencillo memorizarlas y evitar errores; pero con cinco o seis, la sobrecarga hace que recurras a hábitos, repitiendo decisiones más impulsivas.

Memoria de trabajo y hábitos: el verdadero motor detrás de cómo aprendemos

Al volver a analizar siete experimentos previos en los que participantes aprendían, mediante un juego informático, a obtener puntos al asociar imágenes y teclas, Collins observó que la memoria de trabajo es esencial cuando la tarea es simple, ya que permite aprender rápido al retener solo unos pocos elementos.

Sin embargo, cuando la información es demasiada para retenerla de forma consciente, entran en juego los hábitos, como cuando una persona sigue la misma ruta todos los días, incluso si no es la más corta ni la mejor.

¿Y si nuestras decisiones cotidianas
¿Y si nuestras decisiones cotidianas y nuestros hábitos las guiara algo mucho más complejo y menos automático de lo que se pensaba?(Imagen Ilustrativa Infobae)

Ante un error, la memoria de trabajo y el aprendizaje por refuerzo suelen recomendar no insistir en la misma elección, mientras que los hábitos llevan a repetir los mismos pasos una y otra vez, independientemente de su éxito.

El análisis de Collins demostró que los participantes tendían a repetir errores por costumbre, no por evaluación racional. “El modelado computacional confirmó que el comportamiento de las personas era más coherente con hábitos que apoyan la memoria de trabajo, que con RL apoyando la memoria de trabajo”, explicó la especialista.

¿Por qué este hallazgo puede cambiar la forma en que enseñamos y diseñamos inteligencia artificial?

La clave de este estudio está en la interacción entre memoria de trabajo y hábitos, mucho más que en un modelo matemático rígido basado en recompensas y castigos.

Aunque la memoria de trabajo es limitada y los hábitos pueden perpetuar errores, juntos permiten aprender de forma flexible y eficaz: la memoria de trabajo dirige la atención a las acciones correctas el tiempo suficiente para que los hábitos las incorporen, como aprender a andar en bicicleta hasta que los movimientos se vuelven automáticos.

El hallazgo de Collins sugiere
El hallazgo de Collins sugiere que la inteligencia artificial y la educación pueden beneficiarse de modelos más realistas (Imagen Ilustrativa Infobae)

Collins resalta que, si bien el aprendizaje por refuerzo tradicional puede funcionar en algunos escenarios, la memoria de trabajo y los hábitos suelen ser igual o más importantes en la vida cotidiana.

“Es llamativo que en las situaciones analizadas en mi trabajo, el RL no sea necesario para explicar el aprendizaje, a pesar de ser el marco de modelado dominante para este tipo de aprendizaje”, señaló.

Estas conclusiones abren la puerta al desarrollo de modelos computacionales y educativos más ajustados a la realidad humana, y sugieren que entender el funcionamiento conjunto de distintos procesos cerebrales puede ser clave para mejorar tanto la inteligencia artificial como la enseñanza.

Incluso, Collins plantea explorar si los hábitos estudiados bajo condiciones experimentales son los mismos que los de la vida real, y hasta qué punto las diferencias individuales influyen en la manera de aprender, lo que añade otra capa de complejidad a