
Meta anunció en exclusiva para Infobae el desarrollo de Voicebox, un modelo de inteligencia artificial de última generación capaz de realizar tareas de generación del habla como edición, muestreo y estilización, incluso sin haber sido específicamente entrenado para ello, sino a través del aprendizaje en contexto, así lo anunció, Mark Zuckerberg.
Voicebox tiene la capacidad de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.
En el futuro, se espera que modelos generativos de IA multipropósito como este, puedan desempeñar funciones como dar discursos naturales a asistentes virtuales y personajes de metaversos, permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.
La versatilidad de Voicebox se destaca en tareas como la síntesis de texto a habla contextual, la edición de habla y reducción de ruido, la transferencia de estilo entre idiomas y el muestreo de habla diversa.
Este avance representa un hito importante en la investigación de IA generativa y promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.
Principales características
- Voicebox: Modelo generativo de habla de última generación.
- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.
- Escala de datos: ha sido entrenado con una gran cantidad de datos para mejorar su capacidad de aprendizaje en contexto.
- Variedad de estilos: puede generar resultados en diversos estilos y crear clips de audio de alta calidad.
- Disponibilidad limitada: Debido a los posibles riesgos de mal uso, el modelo y su código no están actualmente disponibles para el público.
- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.
Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora. Estos no solo generan textos o imágenes de alta fidelidad, sino que también son generalistas y pueden resolver tareas no enseñadas explícitamente.
Sin embargo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.
Al igual que GPT, esta herramienta puede realizar diferentes tareas a través del aprendizaje en contexto, pero con la ventaja de poder condicionar también en el contexto futuro. Puede utilizarse para la síntesis de texto a habla monolingüe o multilingüe sin necesidad de entrenamiento previo, eliminación de ruido, edición de contenido, conversión de estilo y generación de muestras diversas.
Mark Zuckerberg criticó las Vision Pro de Apple
En una reunión con sus empleados, Mark Zuckerberg habló sobre las Apple Vision Pro, las nuevas gafas de realidad mixta que la empresa presentó hace unos días y que llegarán en 2024 a 3.499 dólares, un precio siete veces mayor que las Quest 3, los visores recientemente confirmados por Meta. El directivo criticó ese alto costo y el enfoque con el que se lanza el producto.
“Creo que su anuncio realmente muestra la diferencia en los valores y la visión que nuestras empresas aportan a esto de una manera que creo que es realmente importante. Innovamos para asegurarnos de que nuestros productos sean tan accesibles y asequibles para todos como sea posible”, afirmó el CEO, en declaraciones publicadas por The Verge, medio que estuvo presente en la reunión.
Últimas Noticias
Todos los rumores sobre el nuevo Apple TV que llegaría en 2026: Siri, IA con Apple Intelligence y más
Gracias al nuevo hardware, el Apple TV podría ejecutar videojuegos AAA de forma nativa, ampliando su rol más allá del streaming tradicional

15 usos que le puedes dar a tu teléfono: desde una cinta métrica hasta un detector de metales
Los smartphones suman cada vez más funciones sorprendentes, desde medir espacios hasta identificar plantas y traducir textos

Más del 20% de los videos que se muestran a nuevos usuarios de YouTube están hechos con IA, según estudio
La investigación arroja luz sobre el alcance internacional de producciones automatizadas y cómo captan a nuevos usuarios en mercados digitales clave

Desarrollan un sistema líquido que almacena energía solar y produce hidrógeno
El innovador avance permite transportar el preciado recurso del sol y convertirlo en combustible incluso en lugares alejados de la red eléctrica tradicional

HP eliminará hasta 6.000 puestos de trabajo y se enfocará en la adopción de la IA
La ola de recortes tecnológicos obliga a empresas a buscar estrategias innovadoras para mantenerse competitivas sin depender únicamente de la automatización



