
El idioma en el que trabaja una inteligencia artificial genera una elevada diferencia de precio entre uno y otro. La cual es lo suficientemente significativa como para crear una brecha entre la IA en inglés y el resto de lenguas, incluido el español.
Así lo confirma un estudio realizado por un equipo de científicos de la Universidad de Oxford, que analizó la forma en la que empresas como OpenAI (desarrollador de ChatGPT) y concluyó que la disparidad en el tratamiento de diferentes idiomas surge en la etapa de tokenización, mucho antes de que se invoque un modelo.
PUBLICIDAD
La investigación, realizada por Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr y Adel Bibi muestra como, por ejemplo, el chino simplificado es el doble de caro que el inglés y la lengua Shan (Birmania), en el otro extremo, 15 veces más.

Una diferencia en la duración de la tokenización que es un problema porque la API de OpenAI se factura en unidades de 1000 tokens . Por lo tanto, si tiene hasta 15 veces más tokens en un texto comparable, el costo de procesamiento será 15 veces mayor.
PUBLICIDAD
En el caso de una IA en español, resulta un 50% más cara que en inglés de acuerdo con el estudio titulado “Los tokenizadores del modelo de lenguaje provocan una brecha entre los idiomas”.
PUBLICIDAD
¿Qué son los tokens?

Los tokens son la unidad de medición que representa el coste computacional de acceder a un modelo de lenguaje a través de una API, que es una pieza de código que permite a diferentes aplicaciones comunicarse entre sí para compartir información y funcionalidades.
Este sistema de tokenización, supone que los modelos usados en otros idiomas que no sean el inglés son mucho más caros de emplear y de entrenar. La razón de fondo es que el chino o el español tienen estructuras diferentes, más complejas gramaticalmente y con mayor número de caracteres requeridos, lo que provoca una mayor tasa de tokenización.
PUBLICIDAD
De hecho, los modelos a nivel de caracteres y a nivel de bytes también exhiben más de 4 veces la diferencia en la longitud de codificación para algunos pares de idiomas.
PUBLICIDAD
Y el tener que usar más poder computacional induce a un trato injusto para algunas comunidades lingüísticas con respecto al costo de acceso a servicios comerciales, el tiempo de procesamiento y la latencia; así como la cantidad de contenido que se puede proporcionar como contexto a los modelos.
OpenAI cuenta con un tokenizador del modelo de lenguaje GPT-3 en el que puede comprobarse las diferencias entre el inglés y otros idiomas.
PUBLICIDAD
Una expresión como “tu afecto” son solo 2 tokens en inglés, pero 8 en chino simplificado. Esto sucede a pesar de que la expresión en chino necesita menos caracteres que en inglés.
En español también son menos caracteres que en inglés, pero el costo sube a 4 tokens.
PUBLICIDAD

La propia OpenAi aclara que como regla general, 1 token equivale a 4 caracteres en inglés y 100 tokens a unas 75 palabras, pero advierte que esta regla no puede trasladarse a otros idiomas.
Una situación ventajosa
Según el estudio, la ventajosa situación del inglés también es reflejo de los conjuntos de datos con los que las empresas entrenan sus inteligencias artificiales.
PUBLICIDAD
Los mismos problemas se reproducen con formas diferentes de cuantificar el costo como el conteo de bits o de caracteres y aparentemente, ningún idioma puede superar la practicidad del inglés, que seguiría presentando costos más bajos debido a su mayor compresibilidad en menor número de tokens.
Además, se concluye que el problema no radica en la forma en que se ha monetizado, sino que es una limitación de la tecnología y de los modelos base considerados para el entrenamiento de la IA.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
X endurecerá las reglas para frenar a usuarios que ganan dinero con publicaciones robadas
La red social de Elon Musk busca frenar el negocio de perfiles que se enriquecen republicando videos e imágenes virales de otros usuarios

Spotify se convierte en lector: escucha artículos de revistas como si fueran audiolibros
La narración de los textos es realizada por voces humanada y/o digitales, y duran menos de dos horas
Lista celulares que perderán acceso a Netflix desde el 1 de junio de 2026
La aplicación de la plataforma streaming está disponible en teléfonos con versiones iguales o superiores a Android 9.0 o iOS 18.0, en el caso de iPhone

Vive las películas como nunca en tu TV: aprende a usar el audio envolvente de una barra de sonido
La conexión por HDMI ARC es la más recomendada para transmitir audio de alta calidad

El FBI advierte sobre una nueva ciberestafa con IA capaz de vulnerar cuentas y contraseñas
La amenaza Kali365 automatiza ataques cibernéticos con IA y facilita campañas de phishing incluso para delincuentes con poca experiencia técnica



