
Investigadores de Cornell comprobaron que los robots equipados con IA ya pueden anticipar el desenlace de escenas tensas mejor que muchas personas cuando observan el contexto, pero aún fallan al leer las expresiones faciales, una limitación que condiciona su futura integración en espacios compartidos, informó el portal tecnológico TechXplore.
El estudio, presentado en la ACM/IEEE International Conference on Human-Robot Interaction 2026, midió hasta qué punto los llamados modelos de visión y lenguaje podían prever si una situación breve terminaría bien o mal. En las pruebas con reacciones faciales, la precisión cayó a un rango de entre 44,5% y 53,8%, y algunos modelos incluso repitieron la misma respuesta para todos los videos.
PUBLICIDAD
María Teresa Parreira, doctoranda en Ciencias de la Información e investigadora principal del proyecto, explicó que la meta es dotar a los robots de inteligencia social: la capacidad de interpretar gestos, anticipar necesidades y desenvolverse dentro de la sociedad. “Emitimos señales sociales cuando interactuamos con el mundo. Para un robot que trabaja en un espacio humano compartido, la capacidad de incorporar esta información es clave para que opere de manera satisfactoria”, indicó la investigadora.
La investigación, titulada Bad Idea or Good Prediction? Comparing VLM and Human Anticipatory Judgment, evaluó si sistemas capaces de interpretar imágenes y lenguaje podían anticipar el final de escenas como la de un niño pequeño que transporta una taza de café demasiado llena. Los investigadores también les pidieron que hicieran la misma predicción a partir de los rostros de personas que observaban esas escenas.
PUBLICIDAD

Contexto vs. expresión facial: la brecha de los modelos de IA
El equipo utilizó el mismo conjunto de escenas de una investigación anterior en la que, según el portal, habían logrado entrenar modelos de IA para prever si una secuencia terminaría bien o mal a partir de las expresiones faciales de individuos que reaccionaban a esos videos. En el nuevo trabajo, en cambio, quisieron comprobar si modelos comerciales ya disponibles poseían por sí mismos esa capacidad.
Para ello probaron tres modelos de código cerrado, entre ellos GPT-4o de OpenAI y Gemini 2.0 Flash de Google, y tres modelos de código abierto disponibles públicamente, entre ellos DeepSeek. Esa diferencia tiene implicancias prácticas: los sistemas cerrados son más grandes, tienen más potencia y fueron entrenados con más datos, pero los abiertos tienen más posibilidades de usarse en robots porque no dependen del acceso a la nube y ofrecen mejores condiciones de privacidad, detalló el portal.
PUBLICIDAD
Los videos incluían secuencias de acción como un hombre que maneja una cortadora de césped a alta velocidad y un robot humanoide que intenta saltar entre bloques. El mejor modelo de código abierto acertó el desenlace en 70% de los casos, mientras que el mejor modelo de código cerrado alcanzó cerca de 63%, un nivel similar al del humano promedio.
Ese resultado respondió a la pregunta central del trabajo: hoy los modelos pueden inferir riesgos razonablemente bien cuando ven la situación completa, pero no cuando deben leer lo que otras personas expresan con el rostro. Esa diferencia expone un déficit de inteligencia social anticipatoria en los VLM actuales, señaló el portal.
PUBLICIDAD
Wendy Ju, profesora de Cornell Tech y autora principal del estudio, dijo que la sensibilidad humana ante las reacciones ajenas sigue siendo un punto de referencia difícil de igualar. “Los humanos son muy buenos y muy sensibles a las reacciones de otras personas. Eso nos permite saber cosas de otras personas que nosotros mismos no sabemos, y eso es precisamente lo que intentamos darles también a los robots”, afirmó.

Robots en entornos humanos: límites y próximos pasos
La incapacidad de los modelos para leer expresiones faciales define el siguiente paso de la investigación. Los investigadores intentan ahora entender por qué esos sistemas fallan en esa tarea y si es posible mejorar su rendimiento mediante nuevas instrucciones.
PUBLICIDAD
Parreira sostuvo que el campo de estudio es amplio y todavía poco explorado. “Es un espacio realmente grande para explorar. Hay mucha información expresada a través de señales sociales. Aprovecharla será importante para integrar robots en entornos humanos”, dijo.
El trabajo también reforzó la idea de que los robots deberían desarrollarse junto a las personas y no en aislamiento. Ju cuestionó la práctica de esperar a que una máquina parezca terminada antes de probarla en condiciones reales: “Demasiadas personas esperan hasta haber construido un robot que creen que funciona perfectamente. Cuando lo prueban, siempre se sorprenden al descubrir lo que exige el contexto y cómo reacciona la gente”.
PUBLICIDAD
La profesora defendió una estrategia distinta: desplegar robots antes de que alcancen una supuesta perfección para observar qué errores cometen y cómo interactúan los humanos con ellos, y luego adaptar su diseño a partir de esa experiencia. “Los robots pueden aprender mientras trabajan”, afirmó.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Cómo seguir los resultados del Mundial 2026 en tiempo real usando solo Google
En iOS, el buscador permite recibir avisos instantáneos sobre partidos o equipos sin usar marcadores flotantes

De Las Guerreras K-pop a la inauguración del Mundial 2026: el ascenso digital de la cantante EJAE
La artista surcoreana pasó de enfrentar el rechazo en la industria del K-pop a convertirse en una figura global
Cuál es el verdadero significado de celebrar un gol alzando los brazos, según la IA
Para conocer a fondo qué hay detrás de este gesto, se consultó a dos de las principales inteligencias artificiales de la actualidad: Gemini y ChatGPT

Cómo pedirle a la IA que haga una selfie con tu jugador favorito del Mundial 2026
La inteligencia artificial generativa permite a los aficionados obtener composiciones fotorrealistas

Ni Magis TV ni Pelota Libre: dónde ver de forma legal el Mundial 2026 por internet
Con el arranque del Mundial 2026, millones de aficionados buscan alternativas para ver los partidos por internet


