
La mayoría asume que el problema costoso de la inteligencia artificial es entrenarla. Meses de cómputo, miles de GPUs, cientos de millones de dólares. Eso es verdad. Pero hay otro costo, más silencioso y más cotidiano, que pocos ven: mantenerla funcionando.
Cada vez que interactúas con ChatGPT, Gemini o Claude, el modelo necesita recordar todo lo que dijiste en la conversación. Esa memoria de trabajo se llama KV cache, y crece con cada mensaje. En conversaciones largas o documentos extensos, ese espacio se vuelve enorme. Ejecutar un modelo grande para 512 usuarios al mismo tiempo puede consumir hasta 512 gigabytes de memoria solo en el caché. Casi cuatro veces lo que necesita el modelo en sí.
PUBLICIDAD
Eso se traduce en hardware, electricidad y un límite muy concreto sobre cuánto puede durar una conversación antes de que el sistema colapse o se vuelva prohibitivamente caro.
Lo que Google acaba de cambiar

El 24 de marzo, Google Research publicó TurboQuant: un algoritmo que comprime ese caché hasta seis veces sin perder calidad. El resultado fue presentado en ICLR 2026, la conferencia más importante de aprendizaje automático del año.
PUBLICIDAD
Lo notable no es solo el nivel de compresión. Es que funciona sin reentrenar el modelo, sin calibrarlo, sin datos específicos. Se aplica directamente encima de lo que ya existe. Y en los benchmarks estándar —comprensión de textos, generación de código, resumen— el modelo comprimido obtuvo resultados idénticos al modelo original.
Los investigadores usan la expresión ‘neutralidad absoluta de calidad’. No aproximada. Idéntica.
PUBLICIDAD
El algoritmo también demostró hasta ocho veces más velocidad en el cálculo de atención sobre GPUs H100, el hardware más avanzado disponible hoy. Ese número aplica al componente específico de atención, no a la inferencia completa, pero sigue siendo una diferencia operativa significativa.
Por qué importa más allá de lo técnico

Si el caché ocupa seis veces menos memoria, el mismo hardware puede atender seis veces más usuarios, sostener conversaciones seis veces más largas o correr modelos más grandes en dispositivos con menos recursos. Las tres opciones son reales, con distinto balance según el caso.
PUBLICIDAD
Google no publicó código oficial. Aun así, en pocos días de anunciado el paper, desarrolladores independientes replicaron los resultados desde cero. Uno probó el sistema en una GPU de consumo doméstico y obtuvo respuestas idénticas bit a bit al modelo sin comprimir. Eso no pasa seguido. Significa que el paper dice lo que dice.
Hay una carrera silenciosa para abaratar el costo de operar la IA. No de construirla. De usarla todos los días. Esa carrera no tiene portadas ni presentaciones con aplausos, pero es la que va a determinar qué empresas pueden escalar sus modelos y cuáles van a descubrir que el límite no es lo que saben hacer, sino cuánto cuesta seguir haciéndolo.
PUBLICIDAD
La IA más inteligente del mundo no sirve de nada si no podés pagarla.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
América Latina es la región con más ciberataques en el mundo: se sufren más de 3 mil ataques semanales
Un informe revela un aumento interanual del 20% en los ciberataques contra empresas latinoamericanas

Google expulsa de su tienda oficial a una popular aplicación tras descubrir que exponía los datos financieros de sus usuarios
Más de 7,3 millones de usuarios descargaron herramientas que simulaban acceder al historial de llamadas y conversaciones de terceros

Starlink limita la velocidad tras un uso intensivo: así funcionan las nuevas restricciones en sus tarifas “ilimitadas”
El servicio satelital de Elon Musk aplica reducción de velocidad tras un uso intensivo para evitar la congestión de la red, priorizando a los usuarios que no superan el umbral de consumo

Cómo acceder a sitios bloqueados por dictaduras sin censura: 10 VPN seguras para leer noticias
Aplicaciones gratuitas y servicios premium se han convertido en una herramienta clave para acceder a medios bloqueados en autocracias. Estas son las opciones más seguras, cuánto cuestan en 2026 y cómo configurarlas




