
La ciencia lleva décadas explicando cómo los humanos aprendemos en función de premios y castigos, un proceso que se ha comparado con el adiestramiento de animales o incluso el funcionamiento de robots.
Pero ¿y si nuestras decisiones cotidianas y nuestros hábitos las guiara algo mucho más complejo y menos automático de lo que se pensaba? Una nueva investigación sacude los cimientos de la teoría clásica del aprendizaje por refuerzo y propone una mirada más rica y humana al misterio de cómo incorporamos conductas útiles o evitamos errores.
Un modelo novedoso desarrollado por Anne G. E. Collins, investigadora de la Universidad de California, Berkeley, replantea la comprensión tradicional del aprendizaje por refuerzo en humanos.
Según un artículo publicado en Medical Xpress, Collins propone que la memoria de trabajo y los hábitos influyen de manera más relevante en la toma de decisiones basada en recompensas, desafiando el paradigma predominante en neurociencia y psicología. El estudio fue publicado en la revista Nature Human Behaviour.
¿Qué es el aprendizaje por refuerzo y cómo lo replantea Collins?
El modelo clásico, conocido como aprendizaje por refuerzo (RL, por sus siglas en inglés), sostiene que personas y animales aprenden, igual que un perro que recibe una golosina o un llamado de atención, repitiendo lo que les da buenos resultados y evitando lo que no.
Este enfoque se utiliza incluso para programar algoritmos de inteligencia artificial. ¿El truco? Se basa en comparar lo que se espera obtener y el resultado obtenido realmente, proceso en el que participa la dopamina como señal de éxito o fracaso.

Pero Collins plantea que no somos tan predecibles como una máquina o una mascota: “Nuestro cerebro tiene múltiples mecanismos para aprender, y operan en paralelo, incluso cuando aprendemos cosas muy simples”, explicó la investigadora.
Imagina que tenes que recordar cuáles llaves abren distintas puertas: si hay solo dos, resulta sencillo memorizarlas y evitar errores; pero con cinco o seis, la sobrecarga hace que recurras a hábitos, repitiendo decisiones más impulsivas.
Memoria de trabajo y hábitos: el verdadero motor detrás de cómo aprendemos
Al volver a analizar siete experimentos previos en los que participantes aprendían, mediante un juego informático, a obtener puntos al asociar imágenes y teclas, Collins observó que la memoria de trabajo es esencial cuando la tarea es simple, ya que permite aprender rápido al retener solo unos pocos elementos.
Sin embargo, cuando la información es demasiada para retenerla de forma consciente, entran en juego los hábitos, como cuando una persona sigue la misma ruta todos los días, incluso si no es la más corta ni la mejor.

Ante un error, la memoria de trabajo y el aprendizaje por refuerzo suelen recomendar no insistir en la misma elección, mientras que los hábitos llevan a repetir los mismos pasos una y otra vez, independientemente de su éxito.
El análisis de Collins demostró que los participantes tendían a repetir errores por costumbre, no por evaluación racional. “El modelado computacional confirmó que el comportamiento de las personas era más coherente con hábitos que apoyan la memoria de trabajo, que con RL apoyando la memoria de trabajo”, explicó la especialista.
¿Por qué este hallazgo puede cambiar la forma en que enseñamos y diseñamos inteligencia artificial?
La clave de este estudio está en la interacción entre memoria de trabajo y hábitos, mucho más que en un modelo matemático rígido basado en recompensas y castigos.
Aunque la memoria de trabajo es limitada y los hábitos pueden perpetuar errores, juntos permiten aprender de forma flexible y eficaz: la memoria de trabajo dirige la atención a las acciones correctas el tiempo suficiente para que los hábitos las incorporen, como aprender a andar en bicicleta hasta que los movimientos se vuelven automáticos.

Collins resalta que, si bien el aprendizaje por refuerzo tradicional puede funcionar en algunos escenarios, la memoria de trabajo y los hábitos suelen ser igual o más importantes en la vida cotidiana.
“Es llamativo que en las situaciones analizadas en mi trabajo, el RL no sea necesario para explicar el aprendizaje, a pesar de ser el marco de modelado dominante para este tipo de aprendizaje”, señaló.
Estas conclusiones abren la puerta al desarrollo de modelos computacionales y educativos más ajustados a la realidad humana, y sugieren que entender el funcionamiento conjunto de distintos procesos cerebrales puede ser clave para mejorar tanto la inteligencia artificial como la enseñanza.
Incluso, Collins plantea explorar si los hábitos estudiados bajo condiciones experimentales son los mismos que los de la vida real, y hasta qué punto las diferencias individuales influyen en la manera de aprender, lo que añade otra capa de complejidad a
Últimas Noticias
Por qué el género podría ser un factor clave en la recuperación tras un ACV: las razones, según un estudio
El seguimiento de personas que atravesaron un accidente cerebrovascular, realizado por la Universidad de Michigan, revela patrones diferenciados en el proceso de rehabilitación. Qué variables personales y sociales pueden influir en el retorno a la vida cotidiana

El truco geométrico que convirtió a Dustin en héroe en Stranger Things
En la serie, ese personaje no utiliza un superpoder, sino la matemática clásica para descubrir el secreto de un extraño muro. Cómo lo hizo

8 mitos sobre el vapeo y los cigarrillos electrónicos que ponen en riesgo a los adolescentes
Los especialistas advierten que la mayoría de los jóvenes y adultos, minimizan o no conocen los daños que pueden generar en los pulmones

La ANLIS Malbrán detectó tres casos de influenza A (H3N2) subclado K en Argentina
Infobae pudo saber que el hallazgo corresponde a dos adolescentes en Santa Cruz y un niño en Buenos Aires, todos con evolución favorable y sin complicaciones clínicas reportadas

La ciencia explicó cómo nace el talento extraordinario en las estrellas del arte, la ciencia y el deporte
Un estudio que analizó a más de 34.000 figuras de élite en diversas disciplinas desafía la idea de la especialización precoz y propone un nuevo modelo para entender el rendimiento humano



