
Meta anunció en exclusiva para Infobae el desarrollo de Voicebox, un modelo de inteligencia artificial de última generación capaz de realizar tareas de generación del habla como edición, muestreo y estilización, incluso sin haber sido específicamente entrenado para ello, sino a través del aprendizaje en contexto, así lo anunció, Mark Zuckerberg.
Voicebox tiene la capacidad de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.
En el futuro, se espera que modelos generativos de IA multipropósito como este, puedan desempeñar funciones como dar discursos naturales a asistentes virtuales y personajes de metaversos, permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.
La versatilidad de Voicebox se destaca en tareas como la síntesis de texto a habla contextual, la edición de habla y reducción de ruido, la transferencia de estilo entre idiomas y el muestreo de habla diversa.
Este avance representa un hito importante en la investigación de IA generativa y promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.
Principales características
- Voicebox: Modelo generativo de habla de última generación.
- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.
- Escala de datos: ha sido entrenado con una gran cantidad de datos para mejorar su capacidad de aprendizaje en contexto.
- Variedad de estilos: puede generar resultados en diversos estilos y crear clips de audio de alta calidad.
- Disponibilidad limitada: Debido a los posibles riesgos de mal uso, el modelo y su código no están actualmente disponibles para el público.
- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.
Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora. Estos no solo generan textos o imágenes de alta fidelidad, sino que también son generalistas y pueden resolver tareas no enseñadas explícitamente.
Sin embargo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.
Al igual que GPT, esta herramienta puede realizar diferentes tareas a través del aprendizaje en contexto, pero con la ventaja de poder condicionar también en el contexto futuro. Puede utilizarse para la síntesis de texto a habla monolingüe o multilingüe sin necesidad de entrenamiento previo, eliminación de ruido, edición de contenido, conversión de estilo y generación de muestras diversas.
Mark Zuckerberg criticó las Vision Pro de Apple
En una reunión con sus empleados, Mark Zuckerberg habló sobre las Apple Vision Pro, las nuevas gafas de realidad mixta que la empresa presentó hace unos días y que llegarán en 2024 a 3.499 dólares, un precio siete veces mayor que las Quest 3, los visores recientemente confirmados por Meta. El directivo criticó ese alto costo y el enfoque con el que se lanza el producto.
“Creo que su anuncio realmente muestra la diferencia en los valores y la visión que nuestras empresas aportan a esto de una manera que creo que es realmente importante. Innovamos para asegurarnos de que nuestros productos sean tan accesibles y asequibles para todos como sea posible”, afirmó el CEO, en declaraciones publicadas por The Verge, medio que estuvo presente en la reunión.
Últimas Noticias
Todos los rumores sobre el nuevo Apple TV que llegaría en 2026: Siri, IA con Apple Intelligence y más
Gracias al nuevo hardware, el Apple TV podría ejecutar videojuegos AAA de forma nativa, ampliando su rol más allá del streaming tradicional

Todo lo que debes saber sobre la carga continua, una ventaja de los conectores USB-C naranjas
Una simple observación permite descubrir la capacidad para recargar otros dispositivos sin tener la portátil en uso o cerca de un enchufe

Si la batería de tu celular se descarga muy rápido, sigue estos simples consejos
Es fundamental comprobar que el teléfono tenga instalada la versión más reciente del sistema operativo, ya que suele incluir mejoras de rendimiento y ahorro de energía

Desde Netflix hasta Spotify: cómo cambiarán los precios del streaming en 2026
El 2026 llegará con aumentos confirmados y posibles subas en las principales plataformas de streaming, impulsadas por mayores costos de producción, fusiones empresariales y más

Los 10 animes más vistos en Crunchyroll para maratonear
Cada semana se publican nuevos capítulos de las series que están en emisión en Japón



