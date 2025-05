Los investigadores han identificado entre 200 y 350 patrones prosódicos básicos que son esenciales para comprender la estructura y el significado en el lenguaje hablado. (Imagen Ilustrativa Infobae)

La revolución de la inteligencia artificial, que ha comenzado a transformar nuestras vidas en los últimos tres años, se basa en un principio lingüístico fundamental que está en la base de modelos de lenguaje de gran escala como ChatGPT. Las palabras en un lenguaje natural no se combinan al azar; más bien, existe una estructura estadística que permite al modelo adivinar la siguiente palabra en función de lo que vino antes.

Sin embargo, estos modelos pasan por alto una dimensión crucial de la comunicación humana: el contenido que no se transmite mediante palabras. En un nuevo estudio que se publica hoy en Proceedings of the National Academy of Sciences, USA (PNAS), investigadores del laboratorio del Prof. Elisha Moses en el Instituto de Ciencias Weizmann revelan que la melodía del habla en las conversaciones espontáneas en inglés funciona como un lenguaje distinto, con un “vocabulario” de cientos de melodías básicas e incluso reglas de sintaxis que pueden predecir la siguiente melodía en la secuencia. El estudio sienta las bases para una inteligencia artificial que comprenderá el lenguaje más allá de las palabras.

La melodía del habla, conocida en la lingüística como “prosodia”, abarca variaciones en el tono (entonación), volumen (por ejemplo, para enfatizar), ritmo y calidad del sonido (como un susurro o una voz agrietada). Esta forma de expresión precede a las palabras en la evolución: estudios recientes revelan que tanto los chimpancés como las ballenas incorporan estructuras prosódicas complejas en su comunicación.

La prosodia del habla, que incluye el ritmo, el tono y la intensidad, juega un papel crucial en la comunicación humana, funcionando como un lenguaje distinto y esencial en las conversaciones cotidianas. (Imagen Ilustrativa Infobae)

En la comunicación humana, la prosodia agrega una capa matizada de significado más allá de las palabras. Una breve pausa, al igual que una coma, puede cambiar el sentido de una oración (“Vamos a comer, abuela”) y el ritmo del texto hablado puede generar suspense. Los lingüistas especializados en prosodia tradicionalmente han estudiado textos literarios y las formas en que la prosodia refleja cambios históricos.

Esto significaba que, a pesar de la importancia crítica de la prosodia para la comprensión del lenguaje humano, su estudio permaneció durante años en un campo marginal, sin aplicaciones y lleno de ideas contradictorias sobre la estructura y el significado de la prosodia.

Sin embargo, la prosodia es una parte inherente de cada conversación. Asigna una función lingüística a las palabras, por ejemplo, si están formulando una pregunta o afirmando un hecho, y revela la actitud del hablante hacia lo que está diciendo.

En el nuevo estudio, dirigido por el lingüista Dr. Nadav Matalon y el neurocientífico Dr. Eyal Weinreb, ambos del laboratorio de Moses en el Departamento de Física de Sistemas Complejos de Weizmann, los investigadores analizaron la prosodia como un lenguaje desconocido, con el objetivo de ofrecer una explicación basada en datos del misterio lingüístico de la estructura y significado de la prosodia.

Un equipo de científicos del Instituto Weizmann utiliza la inteligencia artificial para analizar conversaciones y descubrir patrones melódicos que podrían revolucionar la comunicación humana. (Imagen Ilustrativa Infobae)

En lugar de basarse en la literatura, utilizaron dos grandes colecciones de grabaciones de conversaciones espontáneas: una de conversaciones telefónicas entre dos participantes y otra de conversaciones cara a cara en diversos lugares, como una cocina o un aula.

La primera tarea para el equipo de investigación fue compilar un diccionario de melodías que funcionan como “palabras” en la prosodia del inglés y asignarles una función y un significado. “Para entender por qué aún no existe un diccionario prosódico, vale la pena recordar que ni siquiera hubo un diccionario completo del inglés hasta el siglo XIX”, dice Moses.

“Cuando la Universidad de Oxford fue encargada de compilar uno, pidió a la gente que ayudara con la carga de trabajo enviando citas que mostraran los cambios históricos en el significado de las palabras. Uno de los principales colaboradores fue un prisionero que pasó más de 20 años leyendo libros y enviando citas. En nuestro estudio, en lugar de recolectar información por nosotros mismos a lo largo de décadas, analizamos grandes colecciones de grabaciones de audio, utilizando IA”.

La melodía del habla de cada persona es única, pero el modelo de IA encontró varios cientos de patrones básicos que se repiten, con ligeras variaciones, en todas las conversaciones espontáneas en inglés. Mientras que las palabras escritas son secuencias de letras, una “palabra” prosódica es una melodía corta, es decir, una secuencia corta de sonidos con variación en el tono, que dura aproximadamente un segundo de promedio.

Para descubrir el significado de estas “palabras”, Matalon tomó una muestra de 20 patrones melódicos básicos y luego escuchó las grabaciones nuevamente. “Descubrimos que cada patrón tiene varias funciones lingüísticas”, explica. “Por ejemplo, dependiendo del contexto, un patrón puede definir si alguien está haciendo una pregunta o haciendo una afirmación.

Sin embargo, cada patrón típicamente transmite una actitud específica del hablante, como curiosidad, sorpresa o confusión, hacia lo que se está diciendo. Una palabra prosódica común es un aumento pronunciado del tono seguido de una caída rápida. Este patrón señala entusiasmo y, dependiendo del contexto, puede expresar un fuerte acuerdo o el reconocimiento de recibir nueva información importante”.

“El primer diccionario completo del inglés de Oxford apareció en el siglo XIX, con la ayuda del público para gestionar la carga de trabajo, incluido un prisionero que contribuyó durante 20 años”. A continuación, los investigadores intentaron identificar las reglas sintácticas que rigen el orden de estos patrones prosódicos, lo que podría permitir que futuros modelos de aprendizaje de lenguajes comprendan y utilicen la prosodia. “Notamos que hay patrones que tienden a aparecer juntos, en pares, en el habla espontánea”, explica Weinreb.

El estudio también encontró que la prosodia varía según el estatus social y la edad, lo que muestra cómo diferentes poblaciones tienen sus propios patrones melódicos. (Imagen Ilustrativa Infobae)

“Es un sistema estadístico simple, en el que la elección correcta de la siguiente unidad en una secuencia depende únicamente de la anterior. Este sistema funciona bien para la conversación espontánea porque requiere solo una planificación a pocos segundos por adelantado, que es el tiempo que dura la memoria a corto plazo”. Estos pares de patrones, descubrieron los investigadores, funcionan como oraciones simples, expresando “una nueva idea”, de modo que cada par se relaciona con un tema específico, añadiendo una sola pieza de información sobre él, por ejemplo, refiriéndose a un hecho mencionado en la conversación y proporcionando retroalimentación positiva.

“Este estudio sienta las bases para el desarrollo de un sistema automatizado que compile un ‘diccionario’ de prosodia e identifique sus reglas sintácticas para cada lenguaje humano y para diferentes poblaciones de hablantes”, dice Moses.

“La prosodia puede variar dependiendo del estatus social, eventos históricos y la edad de los hablantes, y estas variaciones pueden incluso manifestarse en obras literarias que reflejan cuidadosamente el habla espontánea”, añade Matalon. “Analizamos audiolibros como parte del estudio y descubrimos que los patrones prosódicos son más largos en el habla escrita y que la simple sintaxis emparejada de la conversación espontánea ha desaparecido.

La inteligencia artificial, como los asistentes virtuales, podría mejorar su interacción emocional y empática si incorpora el entendimiento de la prosodia, según el estudio. (Imagen Ilustrativa Infobae)

También hay otras diferencias. Es seguro asumir que el proceso de envejecimiento y la adquisición del lenguaje en la infancia también van acompañados de cambios prosódicos cuantificables. Además, hay evidencia de que la prosodia es importante en el habla interna, el lenguaje del pensamiento, y que podemos profundizar nuestra comprensión de la prosodia existente en las voces robóticas producidas por dispositivos generadores de habla. El modelo que creamos promete cerrar las brechas que han surgido a lo largo de los siglos en la investigación sobre la expresión más allá de las palabras”.

Una aplicación futura importante de un diccionario automatizado de prosodia podría ser el desarrollo de una IA capaz de comprender y transmitir mensajes a través de la melodía del habla en lugar de solo con palabras. “Imaginen si Siri pudiera entender a partir de la melodía de tu voz cómo te sientes acerca de un determinado tema, qué es importante para ti o si crees que sabes más que ella”, añade Weinreb, “y que pudiera adaptar su respuesta para que suene entusiasta o triste. Ya tenemos implantes cerebrales que convierten la actividad neural en habla para las personas que no pueden hablar. Si podemos enseñar prosodia a un modelo computacional, estaremos añadiendo una capa significativa de expresión humana que los sistemas robóticos actualmente carecen”.

También participaron en el estudio el Dr. Dominik Freche del Departamento de Física de Sistemas Complejos de Weizmann; el Dr. Erez Volk de NeuraLight Inc., Tel Aviv; la Dra. Tirza Biron del Departamento de Ciencias de la Computación y Matemáticas Aplicadas de Weizmann; y el Prof. David Biron de la Universidad de Chicago. *El Prof. Elisha Moses ocupa la Cátedra Maurice e Ilse Katz.