Meta ha presentado un modelo con capacidades de reconocimiento automático del habla para más de 1.600 idiomas, incluidos los menos representados, que considera "un avance significativo hacia un sistema de transcripción verdaderamente universal".
La compañía tecnológica ha presentado las nuevas herramientas con las que busca reducir la brecha que existe con la tecnología de reconocimiento automático del habla, para que los sistemas de conversión de voz a texto de alta calidad lleguen también a los idiomas menos hablados y con pocos recursos.
Una de esas herramientas es Omnilingual ASR, un conjunto de modelos que ofrece reconocimiento automático del habla en más de 1.600 idiomas, incluyendo 500 idiomas que nunca antes habían sido transcritos por IA. Para la compañía, "representa un avance significativo hacia la creación de un sistema de transcripción verdaderamente universal".
Según sus datos, Omnilingual ASR "alcanza un rendimiento de vanguardia en más de 1.600 idiomas, con tasas de error de caracteres inferiores al 10% en el 78% de ellos". Los idiomas con pocos recursos y menos de diez horas de entrenamiento presentan tasas de error de caracteres inferiores al 10% en el 36 % de los casos.
Los sistemas de reconocimiento automático del habla requieren grandes cantidades de datos del idioma para poder realizar transcripciones con precisión. No todos cuentan con los recursos suficientes, por eso Meta ha introducido un enfoque basado en el aprendizaje contextual para que a partir de unos pocos ejemplos de audio y texto emparejados se puedan obtener transcripciones de calidad aceptable.
"Si bien el rendimiento sin ejemplos de aprendizaje aún no alcanza el de los sistemas completamente entrenados, ofrece una vía mucho más escalable para incorporar nuevos idiomas al ámbito digital", señala la compañía en su blog de IA.
Meta ofrece Omnilingual ASR en dos tamaños: con 7.000 millones de parámetros y con 300 millones de parámetros, este último para su uso en dispositivos de bajo consumo; y lo acompaña de su modelo de reconocimiento de voz de propósito general wav2vec 2.0. Todas estas herramientas están disponibles bajo una modalidad de código abierto.
Asimismo, ha facilitado el corpus Omnilingual ASR, que el conjunto de datos de entrenamiento de Omnilingual ASR, que es "uno de los más grandes jamás creados para este fin, tanto por su volumen como por su diversidad lingüística", y que "abarca cientos de lenguas nunca antes vistas por los sistemas de ASR".
Últimas Noticias
Japón y Francia cooperarán para adquirir tierras raras y "diversificar" el suministro
El BOE publica la concesión de la nacionalidad española al opositor venezolano Leopoldo López
El líder político que permaneció protegido en la embajada de España tras perder su documentación en Venezuela recibirá el reconocimiento legal según confirmó el ministro Albares, quien destacó las “circunstancias excepcionales” en torno a su caso

Numerosos 'robotaxis' de la china Baidu se detienen de repente en las calles de Wuhan
Australia sella un acuerdo con Anthropic para impulsar su plan de IA
Atacado un buque cisterna por dos proyectiles de origen desconocido frente a las costas de Qatar
