
Meta anunció en exclusiva para Infobae el desarrollo de Voicebox, un modelo de inteligencia artificial de última generación capaz de realizar tareas de generación del habla como edición, muestreo y estilización, incluso sin haber sido específicamente entrenado para ello, sino a través del aprendizaje en contexto, así lo anunció, Mark Zuckerberg.
Voicebox tiene la capacidad de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.
En el futuro, se espera que modelos generativos de IA multipropósito como este, puedan desempeñar funciones como dar discursos naturales a asistentes virtuales y personajes de metaversos, permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.
La versatilidad de Voicebox se destaca en tareas como la síntesis de texto a habla contextual, la edición de habla y reducción de ruido, la transferencia de estilo entre idiomas y el muestreo de habla diversa.
Este avance representa un hito importante en la investigación de IA generativa y promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.
Principales características
- Voicebox: Modelo generativo de habla de última generación.
- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.
- Escala de datos: ha sido entrenado con una gran cantidad de datos para mejorar su capacidad de aprendizaje en contexto.
- Variedad de estilos: puede generar resultados en diversos estilos y crear clips de audio de alta calidad.
- Disponibilidad limitada: Debido a los posibles riesgos de mal uso, el modelo y su código no están actualmente disponibles para el público.
- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.
Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora. Estos no solo generan textos o imágenes de alta fidelidad, sino que también son generalistas y pueden resolver tareas no enseñadas explícitamente.
Sin embargo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.
Al igual que GPT, esta herramienta puede realizar diferentes tareas a través del aprendizaje en contexto, pero con la ventaja de poder condicionar también en el contexto futuro. Puede utilizarse para la síntesis de texto a habla monolingüe o multilingüe sin necesidad de entrenamiento previo, eliminación de ruido, edición de contenido, conversión de estilo y generación de muestras diversas.
Mark Zuckerberg criticó las Vision Pro de Apple
En una reunión con sus empleados, Mark Zuckerberg habló sobre las Apple Vision Pro, las nuevas gafas de realidad mixta que la empresa presentó hace unos días y que llegarán en 2024 a 3.499 dólares, un precio siete veces mayor que las Quest 3, los visores recientemente confirmados por Meta. El directivo criticó ese alto costo y el enfoque con el que se lanza el producto.
“Creo que su anuncio realmente muestra la diferencia en los valores y la visión que nuestras empresas aportan a esto de una manera que creo que es realmente importante. Innovamos para asegurarnos de que nuestros productos sean tan accesibles y asequibles para todos como sea posible”, afirmó el CEO, en declaraciones publicadas por The Verge, medio que estuvo presente en la reunión.
Últimas Noticias
Para qué sirve el puerto USB del router y qué dispositivos puedes conectar
Muchos modelos incluyen este puerto, aunque la mayoría de usuarios no aprovecha sus beneficios

Qué tan recomendable es usar el mismo cargador para todos los dispositivos: la batería estaría en riesgo
La estandarización del USB-C crea una falsa sensación de compatibilidad universal

Cómo es el Phantom 3500, el avión comercial que elimina las ventanas y volará en 2027
Otto Aerospace presentó un avión sin ventanas que apuesta por mayor eficiencia y menor consumo

Meta se sigue olvidando del metaverso: despedirá a 1.000 empleados para apostar por la IA
El olvido por el metaverso se da por la baja adopción masiva y pérdidas superiores a USD 70.000 millones desde 2021

12 funciones de iOS que casi nadie usa y pueden mejorar tu iPhone
Desde funciones de seguridad hasta trucos de productividad, iOS incluye opciones poco conocidas



