Google presnetó Gemini Omni, un nuevo modelo multimodal capaz de entender y generar contenido de video, imagen, texto y audio de manera integrada.
La presentación de esta tecnología durante el evento Google I/O 2026 marca un hito en la estrategia de la compañía frente al avance de empresas en el sector de la IA generativa.
Qué es Google Omni y cómo funciona
Gemini Omni es la última apuesta de Google DeepMind en el terreno de la inteligencia artificial generativa. Se trata de un modelo denominado “Modelo del Mundo”, diseñado para comprender simultáneamente lenguaje, imágenes, audio y video, permitiendo una interacción fluida y natural con el usuario.
PUBLICIDAD
Según Demis Hassabis, director ejecutivo de Google DeepMind, el objetivo es claro: “crear cualquier cosa a partir de cualquier entrada”.
A diferencia de plataformas anteriores, Gemini Omni es nativamente multimodal. Esto significa que puede tomar como referencia cualquier combinación de imágenes, textos, videos o audios, y producir contenido cohesivo que responde a las instrucciones del usuario.
Por ejemplo, es posible subir una fotografía, añadir un texto descriptivo y una pista de audio, y pedirle a Omni que genere un video que combine todos estos elementos de manera coherente.
PUBLICIDAD
El primer modelo disponible dentro de esta familia es Gemini Omni Flash, que permite la creación de clips de hasta 10 segundos con video y audio. Esta herramienta destaca por su capacidad para editar y transformar videos usando simplemente lenguaje natural, lo que supone un avance respecto a los sistemas tradicionales de texto a video.
Gemini Omni permite al usuario modificar fondos, introducir efectos especiales, alterar ángulos de cámara o cambiar detalles concretos dentro de una escena, todo ello a través de instrucciones conversacionales. Además, mantiene la coherencia de los personajes, la física de los movimientos y la memoria de los cambios realizados en la secuencia, facilitando una edición mucho más intuitiva.
Para qué sirve y posibilidades de uso de Gemini Omni
La utilidad de Gemini Omni se extiende tanto a la creación de contenido original como a la edición de material ya existente. Un usuario puede grabar un video y pedirle al modelo que transforme la acción, agregue nuevos objetos o personajes, o reinterprete la escena bajo un nuevo estilo o contexto.
PUBLICIDAD
Por ejemplo, se puede solicitar que una escultura aparezca hecha de burbujas, o que el reflejo de un espejo se convierta en líquido cuando una persona lo toca.
Otra de las funciones destacadas es la capacidad para refinar videos en múltiples etapas. Es posible realizar una primera edición, visualizar el resultado y, posteriormente, añadir nuevas instrucciones para modificar el entorno, el estilo visual, los efectos de movimiento o cualquier detalle específico, sin perder la coherencia con la edición original.
Gemini Omni también es capaz de generar explicaciones visuales complejas a partir de indicaciones breves. Por ejemplo, puede crear un video estilo claymation para explicar el proceso de plegamiento de proteínas, o producir secuencias educativas que integren referencias históricas, científicas o culturales, aprovechando el conocimiento contextual del modelo.
PUBLICIDAD
Cómo se podrá acceder a Google Omni
El despliegue de Gemini Omni ha comenzado con el modelo Omni Flash, disponible desde este martes para los usuarios de los planes Google AI Plus, Pro y Ultra, a través de la aplicación Gemini y Google Flow. Próximamente, la tecnología llegará también a YouTube Shorts y YouTube Create, donde estará disponible de forma gratuita.
Para quienes deseen utilizar Omni con fines profesionales o integrarlo en desarrollos propios, Google ha anunciado que en las próximas semanas habilitará el acceso mediante API para desarrolladores y empresas. Por el momento, no se ha confirmado una fecha oficial para esta segunda etapa.
El nuevo plan AI Ultra de Google tendrá un costo de 100 dólares mensuales, ofreciendo límites de uso más elevados. El plan anterior, de 250 dólares, reducirá su precio a 200 dólares, lo que busca ampliar el acceso a la herramienta en distintos segmentos de usuarios.
PUBLICIDAD