El plan de la UNAM para preservar lenguas originarias con Inteligencia Artificial

Esta herramienta podría ayudar a reducir el sesgo de extinción

Guardar
La AECID apoya un proyecto
La AECID apoya un proyecto para garantizar el acceso efectivo a la justicia de los pueblos indígenas de Chiapas en sus lenguas originarias SOCIEDAD AECID

El avance de la inteligencia artificial abre nuevas oportunidades para enfrentar la desaparición de las lenguas originarias de México, una problemática agravada por la falta de registros del habla cotidiana y la disminución drástica de hablantes en las últimas décadas.

Las cifras muestran una tendencia preocupante: el porcentaje de personas que utilizan alguna lengua nacional se redujo de un 15 % en 1930 a solo 6,2 % en 2020.

Además, quienes las practican suelen ser adultos mayores, mientras que las generaciones jóvenes casi no las usan, lo que acelera el riesgo de extinción.

Actualmente, existen 68 lenguas nacionales en el país, agrupadas en 11 familias y con 364 variantes reconocidas.

Muchas de ellas se encuentran en franco retroceso, lo que ha llevado a especialistas del Departamento de Ciencias de la Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la UNAM a buscar alternativas tecnológicas para su preservación.

El investigador Iván Vladimir Meza Ruiz destacó que el uso de inteligencia artificial permitiría conservar estas lenguas “aunque sea de manera artificial”, especialmente aquellas que ya casi no tienen hablantes.

Según sus palabras, la estrategia contempla el desarrollo de un registro digital que ayude a mantenerlas presentes en el ámbito cultural y social.

Uso de inteligencia artificial para la preservación lingüística

Meza Ruiz, quien participó en la sexta sesión de la Cátedra Extraordinaria de Bioética de la UNAM, explicó que la tecnología actual permite crear versiones digitales de lenguas de manera masiva.

Sin embargo, el mayor reto es la obtención de datos suficientes y de calidad para alimentar los modelos de IA.

La escasez de información confiable es evidente. Por ejemplo, Wikipedia solo tiene 4.272 artículos en náhuatl clásico, 1.201 en maya yucateco, 224 en náhuatl central, 113 en mixteco, 90 en hñahñu, 12 en purépecha y 10 en mixe del norte.

Esta carencia de contenido limita el alcance de la digitalización y dificulta el desarrollo de aplicaciones tecnológicas.

El especialista mencionó también que la mayoría de los datos disponibles sobre lenguas originarias están relacionados con la música, mientras que los registros del habla cotidiana son muy escasos.

Esta situación no solo afecta la riqueza del archivo lingüístico, sino que también genera sesgos y limita la representación de las lenguas en formatos accesibles.

Desafíos éticos y sociales de la digitalización

La creación de archivos digitales plantea dilemas éticos, ya que muchos textos y documentos en lenguas originarias tienen derechos de autor y valor patrimonial para las comunidades.

Según Meza Ruiz, existe una tensión entre el principio de ciencia abierta y la necesidad de respetar la propiedad intelectual de los pueblos originarios.

El investigador subrayó que una estrategia digital adecuada podría facilitar el acceso de estas comunidades a servicios como educación, salud, justicia y autonomía económica en su propio idioma.

En México, buena parte de las lenguas originarias son orales, lo que complica aún más la recopilación de registros de voz y escritura.

Las variantes orales presentan un reto adicional: la llamada “problemática del dato biométrico”, es decir, la dificultad para obtener grabaciones auténticas y representativas del habla.

Además, Meza Ruiz advirtió que la discriminación puede incrementarse cuando existen pocos registros del habla, pues estos pueden convertirse en puntos de contacto que refuercen prejuicios sociales.