
Ya no es necesario escribir guiones ni grabar voces para producir un podcast. Google amplió las capacidades de su herramienta de inteligencia artificial (IA) que genera resúmenes de audio, permitiendo ahora su uso en más de 50 idiomas, incluidos español, portugués, francés, turco, coreano y chino.
La función, disponible a través de la plataforma Gemini y la aplicación NotebookLM, convierte documentos, presentaciones y archivos en conversaciones de audio simuladas entre dos presentadores de IA.
Hasta hace poco, esta tecnología solo operaba en inglés, pero ahora es posible configurar el idioma de salida desde la sección de ajustes en NotebookLM, tanto en su versión web como en dispositivos móviles.

Para cambiar de idioma, los usuarios deben dirigirse a NotebookLM, seleccionar la configuración ubicada en la esquina superior derecha de la pantalla y elegir “Idioma de salida”.
Desde allí, se puede seleccionar el idioma preferido para recibir respuestas, escuchar los resúmenes en formato de audio y ajustar otros parámetros de salida de la conversación generada.
Cómo funcionan los ‘Resúmenes de audio’ de Google
Los ‘Resúmenes de audio’ transforman documentos, diapositivas e incluso informes de investigación extensos en discusiones estilo podcast.

La tecnología genera de forma automática las voces y los guiones a través de sistemas conversacionales que permiten simular una discusión profunda basada en el contenido proporcionado. La locución y el diseño del diálogo no requieren intervención humana en ningún momento del proceso.
Desde su lanzamiento inicial en 2023, Audio Overviews —nombre que recibe esta función en inglés— ha sido incorporado en diversas plataformas de Google. Además de NotebookLM, la herramienta está disponible en el chatbot Gemini y en Google Docs, extendiendo su capacidad para convertir distintos tipos de contenido escrito en material sonoro apto para la escucha en distintos contextos.
Aunque la expansión reciente permite su uso en múltiples idiomas, el acceso completo a la función sigue estando limitado a suscriptores de los planes Gemini y Gemini Advanced.

La herramienta se basa en NotebookLM, el asistente de lectura y análisis de textos de Google. Desde allí, los usuarios pueden cargar documentos, informes académicos, análisis sectoriales o presentaciones corporativas, y generar automáticamente versiones sonoras de su contenido para su posterior consumo auditivo.
Esto permite procesar información de manera auditiva mientras se realizan otras actividades cotidianas, según explicó la empresa: “Puedes escuchar estas discusiones generadas por IA para obtener nuevos conocimientos y mantenerte informado, incluso mientras realizas múltiples tareas”.
Actualmente, los resúmenes generados en idiomas distintos del inglés están disponibles en fase experimental, y Google no ha especificado fechas concretas para una implementación global definitiva.

A diferencia de sistemas que se limitan a ofrecer transcripciones o resúmenes textuales, los ‘Resúmenes de audio’ integran elementos de síntesis, organización narrativa y locución artificial, imitando el ritmo, las pausas y la estructura de una conversación entre personas.
Entre los usos previstos se encuentran la revisión de apuntes académicos, el resumen de informes corporativos, la actualización de tendencias sectoriales o la preparación de presentaciones.
El contenido generado puede ser compartido o descargado para escucharlo en distintos momentos y dispositivos, sin necesidad de conocimientos técnicos avanzados ni experiencia previa en producción de audio.

La creación de voces artificiales a partir de texto no es una innovación reciente, pero su incorporación en herramientas de consumo masivo como Gemini podría enmarcar un cambio significativo en la forma de producir, consumir y distribuir información de manera automatizada.
Funciones como los ‘Resúmenes de audio’ automatizan procesos que, hasta ahora, requerían escritura, grabación y edición manual, tradicionalmente realizados por equipos humanos.
La disponibilidad en más de 50 idiomas marca un paso relevante en la estrategia de Google por integrar capacidades generativas de voz en sus servicios de productividad y comunicación, en un contexto donde la automatización de contenidos continúa expandiéndose en múltiples industrias tecnológicas, educativas y empresariales.
Últimas Noticias
Ethereum: cuál es el precio de esta criptomoneda este 5 de diciembre
Ethereum fue lanzada en 2015 por el programador Vitalik Buterin, con la intención de impulsar un instrumento para aplicaciones descentralizadas y colaborativas

El costo de bitcoin para este 5 de diciembre
El bitcoin fue creado por Satoshi Nakamoto en el 2008 y arrancó sus operaciones oficialmente el 3 de enero de 2009 con “el bloque de génesis” de 50 monedas

El código de ChatGPT revela integración en desarrollo con Apple Health
Informes señalan que OpenAI estaría trabajando para que su popular chatbot pueda acceder a los datos recolectados por la app Salud de Apple

AWS lanza nuevas herramientas para crear y personalizar LLMs sin gestionar infraestructura
El avance principal presentado por Amazon Web Services es la posibilidad de adaptar modelos de lenguaje grandes a medida utilizando dos de sus plataformas más relevantes en IA en la nube

Jensen Huang, CEO de Nvidia, admite que trabaja 7 días a la semana: “Es agotador”
La presión constante y la ansiedad marcan la vida del CEO de Nvidia, quien considera que la adversidad es clave para alcanzar grandes logros




