Investigadores del MIT crearon una tecnología capaz de imaginar el rostro de una persona con tan solo escuchar su voz

Se trata de un sistema de aprendizaje automático llamado Speech2Face que fue entrenado con millones de videos en la web

Guardar
Google icon
El aprendizaje profundo o deep learning es un conjunto de algoritmos de aprendizaje automático (iStock)
El aprendizaje profundo o deep learning es un conjunto de algoritmos de aprendizaje automático (iStock)

¿La voz puede delatar cómo se ve una persona? Pareciera ser que sí. O al menos esa es la idea detrás de Speech2Face, un sistema de aprendizaje automático capaz de adivinar el rostro de una persona por cómo suena su voz.

Según explican los investigadores del MIT Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Wojciech Matusik, que están detrás de este proyecto, se entrenó una red neuronal para desarrollar esta tarea utilizando millones de videos de miles de personas hablando en YouTube y otros clips publicados en la web.

PUBLICIDAD

Durante la fase de entrenamiento, el sistema estableció correlaciones entre los atributos físicos de la persona, como edad, género y grupo étnico y el timbre de su voz.

La inteligencia artificial aprendió esas relaciones y las puede usar para adivinar o intuir cómo es el rostro de una nueva persona con tan solo escuchar un pequeño fragmento de su voz.

PUBLICIDAD

Speech2Face es el nombre del sistema de aprendizaje automático capaz de adivinar el rostro de una persona con tan sólo escuchar su voz.
Speech2Face es el nombre del sistema de aprendizaje automático capaz de adivinar el rostro de una persona con tan sólo escuchar su voz.

Cabe destacar que el sistema no es capaz de reconstruir exactamente cómo es el rostro de la persona, sino que tan sólo puede elaborar una imagen que surge de esas relaciones aprendidas.

"Esto se debe a que nuestro modelo está entrenado para capturar las características visuales (relacionadas con edad, género, etc) que son comunes a varios individuos, tan sólo en los casos en los que hay suficiente evidencia para conectar esas características con los atributos en el habla que se encuentran en la base de datos", explican los investigadores en la publicación.

Por eso va a producir imágenes aproximadas en función de estos datos y no una foto detallada y perfecta de un individuo en particular.

Otro punto es que el modelo está diseñado en función de una base de datos que, por más que es amplia, no representa a toda la población que hay en el mundo, con lo cual los resultados van a ser parciales y seguramente requiera mayores ajustes.

Uno de los desafíos dentro del machine learning es contar con una nutrida base de información que sea lo más representativa de la realidad, algo que, muchas veces, es difícil de lograr.

MÁS SOBRE ESTE TEMA:

PUBLICIDAD

PUBLICIDAD

Últimas Noticias

Congreso no votó proyecto de reelección de rectores: Jeri Ramón no podría buscar un nuevo mandato en la UNMSM

Fernando Rospigliosi no puso a debate cuestionada iniciativa. En la víspera el Comité Electoral de la Universidad San Marcos decidió suspender los comicios y reprogramarlo en el más breve plazo posible

Congreso no votó proyecto de reelección de rectores: Jeri Ramón no podría buscar un nuevo mandato en la UNMSM

Uno de los jugadores que pelea por entrar en la lista de Lionel Scaloni para el Mundial 2026 anunció la salida de su club tras cuatro años

Marcos Senesi abandonará el Bournemouth de la Premier League tras la finalización de su contrato a mitad de año

Uno de los jugadores que pelea por entrar en la lista de Lionel Scaloni para el Mundial 2026 anunció la salida de su club tras cuatro años

Resultados ONPE 100%: solo faltan dos actas para confirmar la segunda vuelta entre Keiko Fujimori y Roberto Sánchez

La Oficina Nacional de Procesos Electorales (ONPE) completó el escrutinio en las 24 regiones del país y en el voto en el extranjero, con excepción de dos actas pendientes

Resultados ONPE 100%: solo faltan dos actas para confirmar la segunda vuelta entre Keiko Fujimori y Roberto Sánchez

Ambulancias tardan en atender una emergencia en Bogotá hasta en cuatro horas y no por los trancones: Secretaría de Salud señaló a EPS

Los registros de la entidad distrital señalan que el compromiso de ambulancias públicas con traslados del sector privado limita la respuesta eficiente a emergencias y evidencia una sobrecarga estructural en la red municipal

Ambulancias tardan en atender una emergencia en Bogotá hasta en cuatro horas y no por los trancones: Secretaría de Salud señaló a EPS

Vive en San Miguel, se hizo viral cortando pasto y hoy llena eventos como imitador: quién es el “Ricky Martin del Conurbano”

Walter Ferri saltó a la fama por su increíble parecido con Ricky Martin tras la viralización de un video casero. Hoy realiza shows, campañas publicitarias y ya tiene una agenda de eventos cerrada con meses de anticipación

Vive en San Miguel, se hizo viral cortando pasto y hoy llena eventos como imitador: quién es el “Ricky Martin del Conurbano”
MÁS NOTICIAS