오디오에서 얼굴을 재현하는 인상적인 인공 지능 프로그램

Speech2Face는 목소리의 작은 조각만으로 사람의 얼굴이 어떻게 생겼는지 알 수 있음을 보여주는 연구입니다.

Guardar

기술은 계속해서 비약적으로 성장하고 있으며 새로운 기능과 기능을 탐구하기 위해 여러 영역을 활용합니다.그중 하나는 음성 조각을 통해 사람의 얼굴을 “재구성”할 수 있다는 것입니다.

2019 년 비전 및 인식 패턴 컨퍼런스에서 발표 된 Speech2Face 연구에 따르면 인공 지능 (AI) 은 짧은 오디오 세그먼트를 통해 사람의 외모를 해독 할 수 있습니다.

이 논문은 MIT 연구 과학 프로그램의 온태현, 탈리 데켈, 김창일, 인바 모세리, 윌리엄 T. 프리먼, 마이클 루빈스타인의 목표는 사람들의 얼굴을 동일하게 재구성하는 것이 아니라 사람들의 얼굴을 동일하게 재구성하는 것이 아니라분석된 오디오.

이를 위해 사람들이 이야기하는 YouTube에서 가져온 수백만 개의 동영상을 분석하는 심층 신경망을 사용, 설계 및 교육했습니다.훈련 중에 모델은 음성과 얼굴의 상관 관계를 분석하여 연령, 성별 및 민족을 포함하여 화자와 유사한 신체적 특성을 가진 이미지를 생성 할 수있었습니다.

Infobae

교육은 얼굴의 상세한 물리적 특성을 모델링 할 필요없이 감독하에 인터넷 비디오의 얼굴과 목소리의 일치를 사용하여 수행되었습니다.

그들은이 연구가 인종 및 개인 정보 보호에 민감한 측면을 가질 수 있기 때문에 얼굴 재현에 특정 물리적 측면이 추가되지 않았으며 다른 기계 학습 시스템과 마찬가지로 시간이 지남에 따라 향상된다는 것을 확신한다고 자세히 설명했습니다.지식 라이브러리를 늘립니다.

표시된 테스트 결과 Speech2Face는 얼굴과 목소리 사이에 많은 우연의 일치가 있음을 보여 주지만 인종, 연령 또는 성별이 사용 된 음성 샘플과 일치하지 않는 몇 가지 결함도있었습니다.

Infobae

이 모델은 얼굴 특징과 음성 사이에 존재하는 통계적 상관 관계를 나타내도록 설계되었습니다.AI는 전 세계 인구의 실제 샘플을 나타내지 않는 YouTube 동영상을 통해 배웠습니다. 예를 들어 일부 언어에서는 교육 데이터와의 불일치를 보여줍니다.

이런 의미에서이 연구 자체는 결과가 끝날 때 시스템을 탐색하고 현대화하기로 결정한 사람들이 더 넓은 사람과 목소리 샘플을 고려하여 기계 학습이 얼굴을 일치시키고 재현하는 광범위한 레퍼토리를 갖도록 권장합니다.

이 프로그램은 또한 만화에서 음성을 재현 할 수 있었으며 분석 된 오디오의 음성과 매우 흡사합니다.

이 기술은 악의적 인 목적으로도 사용될 수 있기 때문에 얼굴을 재현하는 것은 사람과 가깝게 유지되고 사람들의 개인 정보 보호에 문제가 될 수 있으므로 얼굴 전체를 제공하지 않습니다.그래도 오디오 샘플에서 기술이 무엇을 할 수 있는지는 놀랍습니다.

계속 읽으세요:

주의: 해커가 WeTransfer를 사칭하여 정보를 훔칩니다.

태양없이 작동하는 태양 전지판; 밤에도 에너지를 생산하는 판을 만듭니다.

WhatsApp은 메시지에 대한 이모티콘과 더 많은 개인 정보 보호 옵션으로 6 가지 반응을 제공합니다