Impressionante programma di intelligenza artificiale che ricrea i volti dagli audio

Speech2Face è uno studio che ha dimostrato che è possibile sapere che aspetto ha il viso di una persona con un piccolo frammento della sua voce

Guardar
Imagen VT3UZ7L2SFC4DOEUSKMENQ7OYM

La tecnologia continua a crescere a passi da gigante, attingendo a diverse aree per esplorare nuove capacità e funzioni. Uno di questi è riuscire a «ricostruire» il volto di una persona attraverso un frammento di voce.

Lo studio Speech2Face presentato nel 2019 in una conferenza sui modelli di visione e riconoscimento ha dimostrato che un'intelligenza artificiale (AI) può decifrare l'aspetto di una persona attraverso brevi segmenti audio.

L'articolo spiega che l'obiettivo dei ricercatori Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman e Michael Rubinstein del MIT Research and Science Program non è quello di ricostruire i volti delle persone in modo identico, ma di creare un'immagine con le caratteristiche fisiche che sono correlate con il audio analizzato.

Per raggiungere questo obiettivo, hanno utilizzato, progettato e addestrato una rete neurale profonda che ha analizzato milioni di video presi da YouTube in cui le persone parlano. Durante la formazione, il modello ha imparato a correlare le voci con i volti, permettendogli di produrre immagini con attributi fisici simili a quelli dei parlanti, tra cui età, sesso ed etnia.

Infobae

La formazione è stata condotta sotto supervisione e utilizzando la concomitanza dei volti e delle voci dei video su Internet, senza la necessità di modellare le caratteristiche fisiche dettagliate del viso.

Hanno spiegato che, poiché questo studio potrebbe avere aspetti sensibili all'etnia, così come alla privacy, non sono stati aggiunti aspetti fisici specifici alla ricreazione dei volti e assicurano che, come qualsiasi altro sistema di apprendimento automatico, migliora nel tempo, poiché in ogni uso aumenta la sua libreria di conoscenze.

Mentre i test mostrati mostrano che Speech2Face ha un numero elevato di coincidenze tra volti e voci, aveva anche alcuni difetti, dove etnia, età o sesso non corrispondevano al campione vocale utilizzato.

Infobae

Il modello è progettato per presentare correlazioni statistiche esistenti tra i tratti del viso e la voce. Va ricordato che l'IA ha imparato attraverso i video di YouTube, che non rappresentano un campione reale della popolazione nel mondo, ad esempio, in alcune lingue mostra discrepanze con i dati di formazione.

In questo senso, lo studio stesso raccomanda, alla fine dei suoi risultati, che coloro che decidono di esplorare e modernizzare il sistema, considerino un campione più ampio di persone e voci in modo che l'apprendimento automatico abbia un repertorio più ampio di volti corrispondenti e ricreati.

Il programma è stato anche in grado di ricreare la voce nei cartoni animati, che hanno anche un'incredibile somiglianza con le voci degli audio analizzati.

Poiché questa tecnologia potrebbe essere utilizzata anche per scopi malevoli, la ricreazione del viso rimane solo il più vicino alla persona e non dà facce piene, poiché questo potrebbe essere un problema per la privacy delle persone. Tuttavia, è stato sorprendente ciò che la tecnologia può fare dai campioni audio.

CONTINUA A LEGGERE:

Más Noticias

Policía Control de Drogas desarticula presunta organización narco que operaba en varios barrios del sur de San José, Costa Rica

El caso “ROTONDA” permitió la captura de ocho sospechosos, entre ellos una pareja señalada como líder de la estructura criminal dedicada al tráfico local de drogas en sectores de Paso Ancho y Lomas de Ocloro

Policía Control de Drogas desarticula presunta organización narco que operaba en varios barrios del sur de San José, Costa Rica

“La vida rueda rápido, mijitos”: Rigoberto Urán volvió a histórico lugar en el que empezó a creer que sí podía cumplir sus sueños

Uno de los pedalistas más famosos en la historia de Colombia conmovió con un mensaje en el que se refirió a la transformación que tuvo, desde que era un joven lleno de aspiraciones hasta convertirse en el hombre que ahora comparte los sueños realizados con su familia

“La vida rueda rápido, mijitos”: Rigoberto Urán volvió a histórico lugar en el que empezó a creer que sí podía cumplir sus sueños

La contaminación por fertilizantes en Iowa alcanzó niveles récord y el estado lanza una millonaria inversión para revertirla

Desde 2024, siete comunidades superaron el máximo legal de nitratos en el agua potable, una sustancia vinculada al cáncer y a riesgos graves para lactantes, según documentos del Departamento de Recursos Naturales

La contaminación por fertilizantes en Iowa alcanzó niveles récord y el estado lanza una millonaria inversión para revertirla

Alerta roja en la Amazonía: imágenes satelitales revelan cómo la minería ilegal “borró” 500 hectáreas de la Reserva Tambopata

Pese a operativos realizados en 2026 por la PNP y las Fuerzas Armadas, el monitoreo de Conservación Amazónica evidencia que las redes ilegales se reorganizan rápidamente y continúan expandiéndose dentro del territorio

Alerta roja en la Amazonía: imágenes satelitales revelan cómo la minería ilegal “borró” 500 hectáreas de la Reserva Tambopata

Estas son las localidades de Bogotá con más cámaras fuera de servicio: afecta la videovigilancia y la respuesta ante delitos y emergencias

Una considerable cantidad de equipos fuera de servicio se concentra en áreas densamente pobladas, lo que representa un obstáculo para las labores de vigilancia y el monitoreo urbano por parte de las autoridades

Estas son las localidades de Bogotá con más cámaras fuera de servicio: afecta la videovigilancia y la respuesta ante delitos y emergencias