Del contexto a los gestos: por qué la IA puede predecir accidentes, pero todavía no sabe “leer” una cara

Un estudio de Cornell presentado en la conferencia internacional de interacción humano-robot 2026 reveló que los modelos de visión y lenguaje predicen situaciones de riesgo con hasta 70% de precisión, pero caen por debajo del 54% al interpretar expresiones faciales

Guardar
Google icon
Ilustración de un robot blanco y gris frente a una familia. La familia tiene expresiones de asombro y un signo de interrogación flota sobre el robot. Fondo lavanda.
Investigadores de Cornell comprobaron que los modelos de IA fallan anticipado cuando deben leer caras humanas (Imagen Ilustrativa Infobae)

Investigadores de Cornell comprobaron que los robots equipados con IA ya pueden anticipar el desenlace de escenas tensas mejor que muchas personas cuando observan el contexto, pero aún fallan al leer las expresiones faciales, una limitación que condiciona su futura integración en espacios compartidos, informó el portal tecnológico TechXplore.

El estudio, presentado en la ACM/IEEE International Conference on Human-Robot Interaction 2026, midió hasta qué punto los llamados modelos de visión y lenguaje podían prever si una situación breve terminaría bien o mal. En las pruebas con reacciones faciales, la precisión cayó a un rango de entre 44,5% y 53,8%, y algunos modelos incluso repitieron la misma respuesta para todos los videos.

PUBLICIDAD

María Teresa Parreira, doctoranda en Ciencias de la Información e investigadora principal del proyecto, explicó que la meta es dotar a los robots de inteligencia social: la capacidad de interpretar gestos, anticipar necesidades y desenvolverse dentro de la sociedad. “Emitimos señales sociales cuando interactuamos con el mundo. Para un robot que trabaja en un espacio humano compartido, la capacidad de incorporar esta información es clave para que opere de manera satisfactoria”, indicó la investigadora.

La investigación, titulada Bad Idea or Good Prediction? Comparing VLM and Human Anticipatory Judgment, evaluó si sistemas capaces de interpretar imágenes y lenguaje podían anticipar el final de escenas como la de un niño pequeño que transporta una taza de café demasiado llena. Los investigadores también les pidieron que hicieran la misma predicción a partir de los rostros de personas que observaban esas escenas.

PUBLICIDAD

Ilustración de un niño ofreciendo una taza a un robot blanco y gris. Detrás, dos adultos sorprendidos en un sofá beige con una manta verde y una planta.
La investigación evaluó modelos de visión y lenguaje para predecir si una situación breve terminaría bien o mal a partir de escenas completas y de expresiones faciales (Imagen Ilustrativa Infobae)

Contexto vs. expresión facial: la brecha de los modelos de IA

El equipo utilizó el mismo conjunto de escenas de una investigación anterior en la que, según el portal, habían logrado entrenar modelos de IA para prever si una secuencia terminaría bien o mal a partir de las expresiones faciales de individuos que reaccionaban a esos videos. En el nuevo trabajo, en cambio, quisieron comprobar si modelos comerciales ya disponibles poseían por sí mismos esa capacidad.

Para ello probaron tres modelos de código cerrado, entre ellos GPT-4o de OpenAI y Gemini 2.0 Flash de Google, y tres modelos de código abierto disponibles públicamente, entre ellos DeepSeek. Esa diferencia tiene implicancias prácticas: los sistemas cerrados son más grandes, tienen más potencia y fueron entrenados con más datos, pero los abiertos tienen más posibilidades de usarse en robots porque no dependen del acceso a la nube y ofrecen mejores condiciones de privacidad, detalló el portal.

Los videos incluían secuencias de acción como un hombre que maneja una cortadora de césped a alta velocidad y un robot humanoide que intenta saltar entre bloques. El mejor modelo de código abierto acertó el desenlace en 70% de los casos, mientras que el mejor modelo de código cerrado alcanzó cerca de 63%, un nivel similar al del humano promedio.

Ese resultado respondió a la pregunta central del trabajo: hoy los modelos pueden inferir riesgos razonablemente bien cuando ven la situación completa, pero no cuando deben leer lo que otras personas expresan con el rostro. Esa diferencia expone un déficit de inteligencia social anticipatoria en los VLM actuales, señaló el portal.

Wendy Ju, profesora de Cornell Tech y autora principal del estudio, dijo que la sensibilidad humana ante las reacciones ajenas sigue siendo un punto de referencia difícil de igualar. “Los humanos son muy buenos y muy sensibles a las reacciones de otras personas. Eso nos permite saber cosas de otras personas que nosotros mismos no sabemos, y eso es precisamente lo que intentamos darles también a los robots”, afirmó.

Ilustración plana que muestra dos columnas. A la izquierda, cajas cerradas con candados azules y una flecha ascendente azul. A la derecha, cajas abiertas con circuitos verdes y una flecha verde más alta
El mejor modelo de código abierto acertó el desenlace en 70% de los casos, mientras que el mejor modelo de código cerrado llegó a cerca de 63%, un nivel similar al humano promedio (Imagen Ilustrativa Infobae)

Robots en entornos humanos: límites y próximos pasos

La incapacidad de los modelos para leer expresiones faciales define el siguiente paso de la investigación. Los investigadores intentan ahora entender por qué esos sistemas fallan en esa tarea y si es posible mejorar su rendimiento mediante nuevas instrucciones.

Parreira sostuvo que el campo de estudio es amplio y todavía poco explorado. “Es un espacio realmente grande para explorar. Hay mucha información expresada a través de señales sociales. Aprovecharla será importante para integrar robots en entornos humanos”, dijo.

El trabajo también reforzó la idea de que los robots deberían desarrollarse junto a las personas y no en aislamiento. Ju cuestionó la práctica de esperar a que una máquina parezca terminada antes de probarla en condiciones reales: “Demasiadas personas esperan hasta haber construido un robot que creen que funciona perfectamente. Cuando lo prueban, siempre se sorprenden al descubrir lo que exige el contexto y cómo reacciona la gente”.

La profesora defendió una estrategia distinta: desplegar robots antes de que alcancen una supuesta perfección para observar qué errores cometen y cómo interactúan los humanos con ellos, y luego adaptar su diseño a partir de esa experiencia. “Los robots pueden aprender mientras trabajan”, afirmó.

PUBLICIDAD

PUBLICIDAD