Hacemos Periodismo

Guardar

Die Technologie wächst weiterhin sprunghaft und stützt sich auf verschiedene Bereiche, um neue Fähigkeiten und Funktionen zu erkunden. Eine davon besteht darin, das Gesicht einer Person durch ein Stimmfragment „rekonstruieren“ zu können.

Die Speech2Face-Studie, die 2019 auf einer Konferenz für Vision- und Erkennungsmuster vorgestellt wurde, zeigte, dass eine künstliche Intelligenz (KI) das Erscheinungsbild einer Person durch kurze Audiosegmente entziffern kann.

Das Papier erklärt, dass das Ziel der Forscher Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman und Michael Rubinstein vom MIT Research and Science Program nicht darin besteht, die Gesichter der Menschen identisch zu rekonstruieren, sondern ein Bild mit den physikalischen Eigenschaften zu erstellen, die mit dem analysierte Audio.

Um dies zu erreichen, haben sie ein tiefes neuronales Netzwerk verwendet, entworfen und trainiert, das Millionen von Videos von YouTube analysiert hat, in denen Menschen sprechen. Während des Trainings lernte das Modell, Stimmen mit Gesichtern zu korrelieren, sodass es Bilder mit physischen Eigenschaften erzeugen konnte, die den Sprechern ähneln, einschließlich Alter, Geschlecht und ethnischer Zugehörigkeit.

Das Training wurde unter Aufsicht und unter Verwendung der Übereinstimmung der Gesichter und Stimmen von Internetvideos durchgeführt, ohne dass detaillierte körperliche Merkmale des Gesichts modelliert werden mussten.

Sie erläuterten, dass, da diese Studie sowohl ethnische als auch datenschutzsensible Aspekte aufweisen könnte, der Wiederherstellung von Gesichtern keine spezifischen physischen Aspekte hinzugefügt wurden und sie versichern, dass sie sich wie jedes andere System des maschinellen Lernens im Laufe der Zeit verbessert, da bei jedem Gebrauch erweitert seine Wissensbibliothek.

Während die Tests zeigten, dass Speech2Face eine hohe Anzahl von Übereinstimmungen zwischen Gesichtern und Stimmen aufweist, wies es auch einige Mängel auf, bei denen ethnische Zugehörigkeit, Alter oder Geschlecht nicht mit der verwendeten Sprachprobe übereinstimmten.

Das Modell wurde entwickelt, um statistische Korrelationen zwischen Gesichtszügen und der Stimme darzustellen. Es sollte daran erinnert werden, dass KI durch YouTube-Videos gelernt wurde, die keine echte Stichprobe der Weltbevölkerung darstellen, beispielsweise in einigen Sprachen Abweichungen von den Trainingsdaten zeigt.

In diesem Sinne empfiehlt die Studie selbst, am Ende ihrer Ergebnisse, dass diejenigen, die sich für die Erforschung und Modernisierung des Systems entscheiden, eine breitere Auswahl an Personen und Stimmen in Betracht ziehen, damit maschinelles Lernen ein breiteres Repertoire an übereinstimmenden und neu erstellten Gesichtern bietet.

Das Programm war auch in der Lage, die Stimme in Cartoons nachzubilden, die auch den Stimmen der analysierten Audios eine unglaubliche Ähnlichkeit haben.

Da diese Technologie auch für böswillige Zwecke verwendet werden kann, bleibt die Wiederherstellung des Gesichts nur so nah an der Person und gibt keine vollständigen Gesichter, da dies ein Problem für die Privatsphäre der Menschen darstellen könnte. Dennoch war es überraschend, was Technologie aus Audiobeispielen leisten kann.

LESEN SIE WEITER:

Vorsicht: Hacker geben sich als WeTransfer aus, um Informationen zu stehlen

eHealth, was ist das und warum ist es die Zukunft der Medizin

Sonnenkollektoren, die ohne Sonne arbeiten; erzeugen Platten, die auch nachts Energie erzeugen

WhatsApp präsentiert 6 Reaktionen mit Emojis für Nachrichten und mehr Datenschutzoptionen

Más Noticias

México vs Chequia EN VIVO desde el Mundial 2026: el Tri mantiene el empate sin goles en el Estadio Azteca

La Selección Mexicana busca los nueve puntos, mientras que los checos llegan con la obligación de ganar si quieren avanzar a los dieciseisavos de final

Abelardo de la Espriella es proclamado presidente por el CNE: colombianos que buscan asilo en EE. UU. enfrentarían mayores trabas bajo su gobierno

Iván Cepeda obtuvo 12.708.712 votos (48,70%) en las elecciones presidenciales y, conforme a la normativa vigente, asumirá un escaño en el Senado como líder de la oposición

Partidos del Mundial 2026 HOY, miércoles 24 de junio: programación, canal TV, horarios y resultados en vivo

El circuito de series entra a su final con varios partidos en simultáneo. Abre el telón Bosnia contra Qatar, luego aparecerá Brasil frente a Escocia y el plato de fondo estará reservado para México ante Chequia

James Rodríguez ilusionó a los colombianos con mensaje tras la clasificación de Colombia a dieciseisavos: “Vamos por más”

El triunfo de 1-0 ante República Democrática del Congo le garantizó el boleto a la Tricolor a la siguiente ronda con una fecha de anticipación y el capitán lo celebró

Sudáfrica vs. Corea del Sur, EN VIVO: siga el minuto a minuto del partido por la fecha 3 del Grupo A del Mundial 2026

Ambos seleccionados llegarán al cierre de la fase con realidades distintas. El conjunto africano necesitará sumar de a tres tras un inicio complicado y algunas bajas clave, mientras que el equipo asiático buscará aprovechar su ventaja en la tabla para sellar el pase a la siguiente ronda

Beeindruckendes Programm für künstliche Intelligenz, das Gesichter aus Audios nachbildet

Speech2Face ist eine Studie, die gezeigt hat, dass es möglich ist, mit nur einem kleinen Fragment ihrer Stimme zu wissen, wie das Gesicht einer Person aussieht.