VALL-E es la nueva inteligencia artificial que imita la voz de las personas

El software solo necesitará una grabación de 3 segundos para generar las grabaciones

Compartir
Compartir articulo
El software de Microsoft solo necesitará una grabación de 3 segundos para generar grabaciones completamente diferentes que imiten tonalidad, estado de ánimo y ambiente sonoro de las voces. REUTERS/Dado Ruvic/Illustratio/File Photo

Microsoft está desarrollando un nuevo programa que tendrá la capacidad de “escuchar”, aprender e imitar voces humanas luego de haber sido expuesta a una muestra de voz de unos segundos.

VALL-E, como se llama esta inteligencia artificial, está basada en una herramienta digital que produce voces a partir de texto por medio de un proceso de análisis y conversión a una “voz digitalizada”.

Las grabaciones de voz de las personas que se requieren para generar nuevos discursos solo sirven como guía para que el software produzca palabras completamente diferentes y que intenten imitar no solo el timbre de voz de las personas sino también, diferentes acentos, entonaciones, expresiones verbales de humor, entre otras variantes que se pusieron a prueba en la fase más temprana del desarrollo de esta inteligencia artificial.

Inteligencia artificial VALL-E de Microsoft. (Microsoft)

VALL-E tiene capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante invisible como un aviso acústico”, afirma Microsoft.

El ambiente acústico también es una variable disponible en los resultados de la inteligencia artificial de Microsoft, pues tiene la capacidad de imitar cómo suenan las voces que son grabadas durante llamadas telefónicas, de modo que las voces personalizadas puedan acercarse aún más a los diferentes entornos físicos en los que se graban los mensajes inicialmente.

En ocasiones las voces producidas por esta inteligencia artificial pueden tener sonidos poco realistas como una ralentización en la pronunciación o la mala dicción en ocasiones. Esto es producto del proceso de síntesis de las voces, por lo que es posible identificar los mensajes generados por computadora al menos en esta primera versión de prueba.

Por otro lado, la compañía también reconoce que puede existir un compromiso ético de por medio en lo que respecta al uso de esta tecnología en campos más amplios.

Microsoft, cada experimento que fue realizado en el marco de este trabajo se llevó a cabo con el consentimiento de los hablantes que prestaron sus voces para ser imitadas por la inteligencia artificial. Además, se afirmó que es importante que que las personas acepten ejecutar el software captando sus voces.

Al usar un sistema similar al que utiliza ChatGPT, la nueva tecnología de Microsoft permitiría a los usuarios solicitar al programa de Open AI que se imite la voz de un personaje famoso. - Foto: Reuters

Esto revela un problema ético producto del uso de esta herramienta virtual, pues un usuario podría solicitar que se imite la voz de una persona famosa para que se difunda un discurso no real que podría ser utilizado en diferentes contextos, incluso aquellos que no son legales o que puedan generar inconvenientes a los dueños de las voces involucradas en el proceso.

Esta no sería la única aplicación que la empresa de tecnología estaría desarrollando para integrarla en sus servicios. Ya en octubre del 2022 se anunció el proceso de integración del software de DALL-E al buscador Bing para que los usuarios puedan generar sus propios resultados de búsqueda de imágenes sin necesidad de recurrir a otros servicios.

El creador de imágenes de Microsoft funcionará tal y como lo hacen otros programas que transforman las descripciones de texto en imágenes con diferentes estilos. La compañía indicó que la herramienta aún no estaba disponible a nivel mundial, pero que ya se podría ver en algunos mercados en su versión de prueba o vista previa.

Seguir leyendo: