Google se potencia con Gemini: conversaciones más humanas y precisas con voz

Con una comprensión avanzada de instrucciones, filtrado de ruidos y traducción bidireccional, Gemini demuestra avances concretos en experiencias más realistas

Google revoluciona la interacción por
Google revoluciona la interacción por voz con Gemini 2.5 Flash Native Audio y traducción simultánea

Google anunció una actualización de Gemini 2.5 Flash Native Audio, su avanzada tecnología para asistentes de voz e inteligencia artificial conversacional. Esta evolución marca un salto en la naturalidad, precisión y eficiencia de las interacciones por voz, con el objetivo de ofrecer experiencias más cercanas a una conversación humana real tanto para consumidores como para empresas.

Cuáles son las modificaciones en la inteligencia artificial de Google

La reciente versión, incorporada en productos como Google AI Studio, Vertex AI, Gemini Live y Search Live, introduce mejoras notables en tres áreas centrales: llamadas a funciones más precisas, mejor seguimiento de instrucciones y diálogos más fluidos.

FILE PHOTO: Google logo hangs
FILE PHOTO: Google logo hangs on the wall during the 'Made by Google' event, organised to introduce the latest additions to Google's Pixel portfolio of devices, in Brooklyn, New York, U.S., August 20, 2025. REUTERS/Brendan McDermid/File Photo

El modelo ahora identifica en qué momento necesita recabar información en tiempo real y la integra en la conversación sin perder coherencia. Este avance resulta fundamental para flujos de trabajo complejos o conversaciones donde se requiere acceso dinámico a datos, como la asistencia telefónica al cliente.

Las pruebas internas y comparativas ubican a Gemini 2.5 Flash Native Audio como líder en la evaluación ComplexFuncBench Audio, donde alcanzó una tasa del 71,5 % de éxito en la gestión de funciones multietapa. Además, el seguimiento de instrucciones se elevó a una tasa de cumplimiento del 90 %, mejorando la satisfacción de usuarios y desarrolladores frente a la versión anterior.

Otro avance destacado es la recuperación de contexto en conversaciones de varios turnos, lo que permite retomar temas previos con una cohesión que se acerca cada vez más a una charla entre humanos.

Cuáles son los aporte que ha hecho Gemini

Las aplicaciones empresariales de este modelo ya muestran resultados tangibles. Shopify reportó que los usuarios suelen olvidar que están conversando con una inteligencia artificial durante la primera interacción con el asistente Sidekick.

Gemini traduce conversaciones en vivo
Gemini traduce conversaciones en vivo y mejora la atención en más de 70 idiomas con updates de Google - REUTERS/Dado Ruvic/Illustration/File Photo

En el sector financiero, United Wholesale Mortgage (UWM) destacó la generación de más de 14.000 préstamos gracias a la capacidad de Gemini de gestionar llamadas complejas.

Para el proveedor de soluciones de inteligencia artificial Newo.ai, la actualización de Gemini a través de Vertex AI posibilita que sus recepcionistas virtuales identifiquen al hablante principal incluso en ambientes ruidosos, cambien de idioma durante una conversación y mantengan una expresividad natural.

Cómo es la opción de traducción en vivo de Gemini

Una de las funciones más prometedoras es la traducción de voz en vivo. Gemini ahora admite traducción simultánea de voz a voz, facilitando tanto la escucha continua como la conversación bidireccional en tiempo real. Al utilizar auriculares, el sistema traduce el habla circundante a un idioma escogido sin perder la entonación, el ritmo ni el tono original. También posibilita conversaciones fluidas entre personas que hablan distintos idiomas, alternando automáticamente el idioma de salida según quién interviene.

La herramienta soporta más de 70 idiomas y 2.000 pares de traducción, con capacidades de entrada multilingüe que permiten entender y procesar varios idiomas en una sola sesión. Gracias a la detección automática, identifica el idioma hablado y comienza la traducción sin necesidad de configuración manual.

Además, el modelo filtra ruidos ambientales, lo que amplía sus posibilidades de uso en exteriores o entornos concurridos, manteniendo una calidad de audio elevada.

Esta tecnología ya se encuentra disponible en una beta pública a través de la aplicación Google Translate en dispositivos Android en Estados Unidos, México e India, con planes de expansión a más países y a sistemas iOS. Google anticipa que la experiencia se integrará progresivamente en otras plataformas, incluida la API de Gemini, a lo largo de 2026.

En el marco de la competencia por ofrecer asistentes de voz cada vez más inteligentes y útiles, la estrategia de Google con Gemini no solo apunta a enriquecer la experiencia de usuario, también a abrir nuevas aplicaciones empresariales y de comunicación global.

La mejora en la naturalidad conversacional, la precisión del seguimiento de instrucciones y el despliegue de una traducción de voz en tiempo real con matices auténticos posicionan a Gemini como un referente en el desarrollo de inteligencia artificial aplicada a la interacción humana.

