A partir de tres pilares fundamentales se desarrolló esta herramienta que busca ir más allá de lo que ofrecen los modelos comerciales actuales para abordar el contexto de Latinoamérica y el Caribe de forma plena: pertinencia, representatividad y soberanía tecnológica.
Los sesgos de la inteligencia artificial siempre son un gran tema de debate que impacta en diversos ámbitos y el educativo es uno de los que suele generar mayor preocupación. No solo se trata de sesgos de género y/o diversidad sino también de entender el pasado, presente y futuro de América Latina.
La idea de este nuevo desarrollo apunta a que las búsquedas y consultas lleven a considerar un contexto cultural y geográfico diferente a los grandes servicios de IA generativa. “Actualmente, los modelos globales se entrenan principalmente con datos del Norte Global, y en estos el español representa solo cerca del 4% de los datos, mientras que el portugués, entre un 2% y un 3%. Latam-GPT busca reducir esta desigualdad, integrando datos que reflejen la cultura, los idiomas y la identidad propia de América Latina y el Caribe”, destacan desde el proyecto.
Entender desde dónde entrenamos a la IA
“Si bien uno de sus resultados centrales es el desarrollo de un modelo de lenguaje de gran tamaño (LLM) abierto, el proyecto abarca también la generación de capacidades habilitantes previas y complementarias: la formación y articulación de talento regional, la creación de corpus de datos pertinentes y representativos de la región, el diseño de benchmarks y evaluaciones propias, así como el desarrollo de infraestructura y conocimiento técnico compartido”, plantean los desarrolladores del proyecto que es fruto de un trabajo coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) de Chile en colaboración con diversas entidades regionales.
A partir de un desarrollo “concebido como un bien público”, Latam-GPT se pantea como una herramienta que se habilite en “ámbitos estratégicos como educación, gestión pública e innovación productiva. Ello, gracias a su diseño de código abierto, que permitiría a universidades, gobiernos, startups y diversas comunidades, desarrollar soluciones propias sobre una base común, transparente y trazable.”
“El lenguaje de hoy día nos guste o no nos guste está muy determinado por la inteligencia artificial. Entonces, no tenemos que temerle, no tenemos que verla sólo como amenaza, tenemos que verla como oportunidad y eso es lo que está haciendo LATAM-GPT hoy día”, sostuvo el Presidente chileno Gabriel Boric en la presentación del proyecto.
Saber promptear y entrenar a la inteligencia artificial siempre son competitividades que se destacan como claves- sumado al pensamiento crítico- pero muchas veces se olvida que la base está lejana a ser diversa, y a pesar de solicitar evitar sesgos estos son innatos a los grandes modelos comerciales.
La diferencia y la estrategia
“Una primera ventaja de Latam-GPT radica en que, a diferencia de modelos de tamaño similar, muestra mejor rendimiento en tareas que requieren conocimiento del contexto cultural de América Latina y el Caribe.”, plantean desde la web del proyecto.
Y resaltan que la segunda ventaja “se refiere a la condición de ser modelo abierto, lo que permitirá que una organización tome el modelo y lo ‘eduque’ con sus propios manuales o reglamentos. Esto, de paso, permitirá a sectores estratégicos contar con mayor seguridad de la información.”
Por último resaltan la transparencia, “a diferencia de los modelos cerrados, que reservan información clave sobre datos y entrenamiento, Latam-GPT apuesta por la apertura y la claridad, fortaleciendo la confianza, el escrutinio técnico y la colaboración regional.”
Impacto y cobertura regional
Desde el sitio del proyecto destacan “LatamGPT fue entrenado con una proporción de datos sobre la región significativamente superior a cualquier modelo hasta la fecha, a través de la técnica de CPT que entrega conocimiento adicional al modelo base LLama 3.1 70Bn.”
Y explican: “En su etapa inicial (versión 1.0), Latam-GPT no es directamente comparable con aquellos modelos comerciales que han contado con inversiones de gran escala. Si bien la primera versión del modelo tiene un rendimiento inferior respecto de otros en algunos benchmarks, su desempeño comparativo y sus resultados observados son evidencia relevante. En particular, muestran capacidades generadas —tanto técnicas como de manejo de infraestructura— que sientan las bases para que, en futuras versiones del modelo, éste pueda llegar a ser equivalente a los modelos más avanzados y mantener el mejor desempeño en el contexto Latinoamericano y del Caribe.”
A la hora de establecer bases en el entrenamiento se destaca que: “La representatividad de Latam-GPT se asegura mediante esfuerzos concretos para ampliar la cobertura regional del corpus, incorporando información de 20 países de América Latina y el Caribe, obtenida en colaboración con instituciones relevantes y sometida a rigurosos procesos de curaduría y balanceo.” Hasta el momento, los países con mayor recolección y aporte de datos en esta fase de entrenamiento son: Brasil, México, Colombia, Argentina y con aporte de España.
En cuanto al corpus de áreas temáticas prioritarias con foco latinoamericano y del Caribe se destacan: Deportes y Recreación; Artes; Política; Comunicación y Medios; Medicina y Salud; Economía y Finanzas; Humanidades y Ciencias Sociales; Ciencias Duras; Educación; y, de manera incipiente, Pueblos Originarios.