Tecno

Subir audios a Gemini ya es posible: así podrás transcribir y analizar grabaciones

Esta nueva función puede ser muy útil para estudiantes, ya que les permite subir grabaciones de clases, conferencias o explicaciones y transformarlas en transcripciones en pocos segundos y de forma gratuita

Isabela Durán San Juan

Por Isabela Durán San Juan

Esta función es gratuita. REUTERS/Dado
Esta función es gratuita. REUTERS/Dado Ruvic/Illustration/File Photo

Gemini, la inteligencia artificial de Google, ha incorporado una función gratuita que promete ser muy útil: ahora permite subir archivos de audio e interactuar con ellos directamente en la plataforma.

Gracias a esta novedad, los usuarios podrán transcribir grabaciones, analizarlas, resumir contenidos, extraer ideas clave y mucho más, aprovechando el poder de la inteligencia artificial.

La noticia fue confirmada por Josh Woodward, vicepresidente de Google Labs y Google Gemini, a través de su cuenta en X (antes Twitter), donde escribió: “Problema solucionado: ahora puedes subir cualquier archivo a @GeminiApp. Incluyendo la función más solicitada: los archivos de audio ya son compatibles”.

Los usuarios pueden subir audios
Los usuarios pueden subir audios en formato m4a. (Gemini)

Cómo subir un audio a Gemini

Para subir un audio a Gemini y interactuar con el archivo directamente mediante la IA, debes abrir la aplicación móvil de Gemini y seguir estos pasos:

  1. Pulsar el ícono de + y seleccionar 'Archivos‘.
  2. Escoger el audio.
  3. Agregar una indicación para la IA. Puede ser que transcriba el audio, que analice cierto fragmento, entre otras.

Por el momento, esta función no se encuentra disponible en la versión web de Gemini, únicamente en su aplicación móvil.

Esta función aún no se
Esta función aún no se encuentra disponible para la página web. (Gemini)

Para qué es útil esta función de Gemini

La nueva función de Gemini, que permite subir audios e interactuar con ellos directamente, abre un abanico de posibilidades tanto para el uso personal como profesional.

Se trata de una herramienta que aprovecha la inteligencia artificial para transcribir, analizar y organizar información en segundos, lo que ahorra tiempo y facilita la productividad.

Por ejemplo, un estudiante puede grabar una clase y luego subir el archivo a Gemini para obtener una transcripción completa.

A partir de ese texto, la IA puede generar un resumen con los puntos clave, elaborar un esquema de estudio o incluso responder preguntas específicas sobre el contenido de la lección. Esto convierte a Gemini en un asistente ideal para el aprendizaje.

Esta función puede ser muy
Esta función puede ser muy útil para estudiantes. (Imagen Ilustrativa Infobae)

En el ámbito laboral, la utilidad es igual de evidente. Imagina una reunión de trabajo grabada: al cargarla en Gemini, se obtiene una transcripción automática y la posibilidad de generar minutas, resaltar las decisiones tomadas y extraer las tareas asignadas a cada participante. Así se optimiza el tiempo y se mejora la organización en equipos de trabajo.

Es útil para creadores de contenido, que pueden subir entrevistas o notas de voz y transformarlas en artículos, guiones o publicaciones listas para editar.

Incluso para profesionales de la salud, como terapeutas o médicos, la herramienta puede servir para transcribir consultas (respetando la privacidad y normas de confidencialidad) y crear reportes clínicos más rápido.

En la vida cotidiana, cualquiera puede aprovecharla para grabar ideas espontáneas, notas personales o recordatorios y después convertirlos en listas de tareas, mensajes o textos más estructurados.

Google agregó una nueva herramienta
Google agregó una nueva herramienta de generación y edición de imágenes a Gemini. REUTERS/Dado Ruvic/Illustration/File Photo

Qué es Nano Banana de Gemini

Nano Banana es el nombre clave para la más reciente versión del modelo de edición y generación de imágenes de Google, oficialmente llamado Gemini 2.5 Flash Image. Desarrollado por Google DeepMind, este modelo está integrado en la app de Gemini, y también está disponible para desarrolladores a través de Gemini API, Google AI Studio, y Vertex AI.

“Lleva tus fotos a otro nivel. Imagínate en diferentes escenas, combina elementos creativos, haz ediciones específicas y más. Tu imaginación es el límite”, indica Google.

Los usuarios pueden combinar fotografías, transferir el estilo, color o textura de un objeto y aplicarlo a otro, así como editar fácilmente elementos específicos de una imagen utilizando únicamente instrucciones en lenguaje natural.

Por qué Nano Banana

Nano hace referencia a la velocidad del modelo, que permite generar ediciones de imagen en menos de 10 segundos.

Mientras que Banana surgió debido a un error (bug) durante las primeras pruebas que aparecía bananas inesperadamente en las imágenes generadas, lo que se convirtió en un elemento distintivo y divertido del lanzamiento.

