
Un desarrollo recientemente presentado en la conferencia ACM CHI en Yokohama (Japón) promete alterar radicalmente la manera en que las personas interactúan en entornos multilingües. Frente al surgimiento de esta nueva tecnología, el MIT Technology Review dio a conocer detalles.
Se trata de Spatial Speech Translation, un sistema de traducción simultánea basado en inteligencia artificial que permite a los usuarios de auriculares identificar y comprender lo que dicen varias personas a la vez, incluso cuando hablan en diferentes idiomas.
Diseñado para usarse con auriculares convencionales con cancelación de ruido, este sistema no solo traduce, sino que reproduce la voz traducida con un timbre y dirección espacial que imita a la persona original, generando una experiencia conversacional más natural y contextualizada.

Sistema contra la barrera del idioma en grupo
El objetivo de Spatial Speech Translation es abordar uno de los retos más complejos para los sistemas automáticos de traducción: la superposición de voces en una conversación grupal.
Con este sistema, se emplea inteligencia artificial para rastrear tanto la procedencia espacial del sonido como las características individuales de cada voz, lo que permite que el usuario identifique con precisión quién habla y qué está diciendo.
La finalidad va más allá de una simple traducción simultánea. Según la descripción técnica, el modelo divide el entorno acústico del usuario en pequeñas regiones y analiza cada una de ellas para detectar posibles interlocutores.
Este reconocimiento permite generar una versión traducida de cada voz que conserva elementos clave como la dirección del sonido, el tono emocional y el timbre original, lo cual resulta en una experiencia auditiva realista.

La dimensión personal detrás del proyecto
La iniciativa tiene una raíz profundamente personal para uno de sus impulsores, el profesor Shyam Gollakota, investigador de la Universidad de Washington. En declaraciones compartidas por MIT Technology Review, Gollakota explicó: “Creemos que este sistema podría ser transformador”.
A través de un concepto humanista, se plantea que la tecnología no solo debe facilitar la comunicación, sino también brindar mayor inclusión social para quienes enfrentan barreras idiomáticas.
Más allá de los casos particulares, la propuesta apunta a reducir la ansiedad y el aislamiento que muchas personas experimentan cuando no logran participar plenamente de una conversación por desconocer el idioma.

Inteligencia artificial en dos niveles: cómo funciona
El sistema está compuesto por dos modelos interdependientes. El primero analiza el espacio sonoro a partir de una red neuronal que divide el entorno en pequeñas zonas. A partir de esa segmentación, localiza la dirección exacta desde donde provienen las voces.
Mientras que el segundo modelo procesa las voces detectadas, las traduce al inglés desde tres idiomas —francés, alemán y español— y reconstruye una versión de la voz original, replicando elementos como el tono, la amplitud y la cadencia emocional.
Lo innovador es que esta “voz clonada” mantiene un alto grado de naturalidad. En lugar de una traducción robótica, la persona que usa los auriculares escucha una versión sintetizada que emula la voz del hablante original, con una latencia de apenas unos segundos. Esta característica permite mantener una dinámica de conversación más fluida que la ofrecida por sistemas convencionales.
Diferencias con respecto a tecnologías existentes
A diferencia de otros dispositivos que incorporan traducción automática, como las gafas inteligentes de Meta, Spatial Speech Translation fue desarrollado para procesar múltiples voces al mismo tiempo. Mientras que la mayoría de los sistemas actuales se enfocan en un único interlocutor, esta propuesta busca resolver el problema real de las conversaciones grupales, en las que se superponen voces e idiomas.

Asimismo, la tecnología utiliza hardware de fácil acceso: auriculares con micrófonos incorporados y laptops equipadas con chips Apple M2, que permiten ejecutar los modelos de red neuronal necesarios. Esta compatibilidad con tecnología disponible en el mercado facilita una posible adopción a gran escala.
Desafíos y pasos por delante
Uno de los principales retos que enfrenta el equipo es reducir la latencia entre la emisión de una frase y su traducción. Actualmente, el retraso es de algunos segundos, lo cual afecta la fluidez del intercambio. “Queremos reducir significativamente esa latencia a menos de un segundo para que se mantenga el ritmo conversacional”, explicó Gollakota.
Este objetivo presenta dificultades técnicas complejas, ya que la estructura sintáctica de cada idioma incide en la velocidad de traducción. Por ejemplo, el sistema es más rápido al traducir del francés al inglés, seguido del español y luego del alemán.
Según el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, esto se debe a que el alemán suele ubicar los verbos —y por tanto gran parte del significado— al final de las oraciones.

Varios especialistas que no participaron en el desarrollo valoraron positivamente el avance. Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, destacó que el proyecto es técnicamente impresionante, aunque advirtió que para su aplicación masiva se requerirá más entrenamiento con datos reales y grabaciones en ambientes ruidosos.
Últimas Noticias
Crean un robot del tamaño de una zapatilla capaz de limpiar derrames de petróleo
El dispositivo utiliza un sistema de filtrado inspirado en erizos de mar que permite separar el crudo del agua sin químicos

Epic Games regala un simulador de electricista por tiempo limitado: así puedes tenerlo
Electrician Simulator propone al usuario desempeñar el rol de un electricista con el objetivo de convertirse en el profesional más reconocido de la ciudad
Centros de datos fuera del planeta: este es el ambicioso plan de Blue Origin de Jeff Bezos para procesar IA desde el espacio
SpaceX de Elon Musk realizó una propuesta similar a la FCC que Amazon Leo criticó

Google presenta una IA capaz de crear aplicaciones a partir de comandos de voz
La nueva función introduce el concepto de “vibe design”, donde el usuario define objetivos o ideas y la IA se encarga del diseño


