Microsoft ha presentado un sistema de inteligencia artificial para generar avatares hiperrealistas. Este sistema, conocido como VASA, tendrá la capacidad de usar IA para recrear rostros humanos con una sorprendente precisión y expresividad.
Desde el lanzamiento de su asistente Copilot el año pasado, la compañía ha estado consolidando su posición en el campo de la inteligencia artificial, y ahora, con esta nueva herramienta, amplía aún más su catálogo de sistemas impulsados por esta tecnología.
¿Qué es VASA?
VASA es un sistema de IA desarrollado por Microsoft que utiliza avanzados modelos de aprendizaje automático para crear avatares hiperrealistas a partir de imágenes estáticas y fragmentos de voz. Este sistema es capaz de dotar de una notable expresividad a los avatares virtuales mientras interactúan en vídeos generados a partir de una imagen estática y un fragmento de voz.

Este avance no solo permite la creación de avatares que parecen reales, sino que también gesticulan y hablan de manera convincente en tiempo real, gracias a la precisión en la sincronización de los movimientos labiales con el audio.
El desarrollo de VASA ha sido el resultado de una investigación y desarrollo por parte del equipo de Microsoft. Este sistema incorpora herramientas de IA como StyleGAN2 y DALL·E-3, que permiten generar una amplia gama de emociones y matices faciales, así como movimientos naturales de la cabeza.
La compañía entrenó su modelo con una amplia colección de videos de personas hablando, utilizando un enfoque 3D para capturar más detalles sobre la cara y su movimiento en un espacio tridimensional. Este enfoque permite modelar la dinámica facial de manera más realista, lo que se refleja en la expresividad y el realismo de los avatares generados por VASA.
Cómo funciona VASA
El funcionamiento de VASA es muy sencillo. Solo se necesita una imagen estática y un fragmento de audio con voz para crear un avatar realista. A partir de estos datos, el sistema genera un video donde el avatar habla y gesticula de manera convincente, con una resolución de 512 x 512 píxeles a 45 fotogramas por segundo en modo offline, y 40 fotogramas por segundo con una latencia de 170 ms en modo online.
Esta herramienta utiliza un enfoque 3D para capturar más detalles sobre la cara y cómo se mueve en un espacio tridimensional. Además, acepta señales adicionales, como la dirección de la mirada principal y la distancia de la cabeza, así como emociones, para generar avatares con diferentes expresiones.
Para lograr este resultado no solo se debe tener una imagen de una persona real, sino que también es posible usar otros contenidos, como imágenes animadas, pinturas o diseños previamente generados con inteligencia artificial.
El programa permite generar un avatar de una misma persona y con la misma pista de audio, pero expresando diferentes emociones, lo que da un resultado cambiante al entregar diferentes emociones con una misma persona.
Microsoft no publicará esta IA
VASA tiene el potencial de revolucionar diversas industrias y campos, desde el entretenimiento hasta la educación y la atención médica. Los avatares generados por este sistema podrían utilizarse para crear contenido multimedia más convincente y atractivo, o para desarrollar aplicaciones de asistencia virtual más avanzadas.
Sin embargo, a pesar de los avances tecnológicos y las posibles aplicaciones prometedoras de esta herramienta, Microsoft ha dejado claro que no tiene planes de lanzar públicamente VASA debido a los riesgos potenciales que podría conllevar su mal uso, especialmente en lo que respecta a la suplantación de identidades.
El desarrollo responsable de la inteligencia artificial es una prioridad para la compañía, y están comprometidos a evitar cualquier aplicación negativa de esta tecnología. Además, la empresa está explorando cómo esta herramienta podría contribuir a la detección de falsificaciones y a la protección contra la desinformación.
Últimas Noticias
Cuál es el iPhone más barato, más nuevo y qué tiene que ver el 17e
Este dispositivo repite la apuesta por lo básico, conservando una pantalla OLED con resolución Retina XDR de 2.532 x 1.170 píxeles

Tu reloj ahora tiene cerebro: Qualcomm lanza el chip que lleva la IA real con Snapdragon
En el MWC 2026, la empresa presentó Snapdragon Wear Elite, una plataforma pensada para relojes inteligentes y otros dispositivos vestibles con Wear OS

Cómo lograr la mejor calidad de imagen en tus apps de streaming con simples ajustes en tu TV
La etiqueta 4K indica solo la resolución del contenido, pero la calidad real depende de varios aspectos técnicos

Apple lanza Studio Display XDR, pantallas con brillo récord y precisión de cine
Los nuevos monitores de Apple facilitan flujos de trabajo optimizados en diseño, fotografía, edición musical y producción audiovisual, todo con eficiencia energética destacada

Descubre las funciones ocultas de Google Wallet más allá de los pagos
Además de guardar tarjetas bancarias, la aplicación ahora centraliza documentos digitales como pases de eventos




