
La mayoría asume que el problema costoso de la inteligencia artificial es entrenarla. Meses de cómputo, miles de GPUs, cientos de millones de dólares. Eso es verdad. Pero hay otro costo, más silencioso y más cotidiano, que pocos ven: mantenerla funcionando.
Cada vez que interactúas con ChatGPT, Gemini o Claude, el modelo necesita recordar todo lo que dijiste en la conversación. Esa memoria de trabajo se llama KV cache, y crece con cada mensaje. En conversaciones largas o documentos extensos, ese espacio se vuelve enorme. Ejecutar un modelo grande para 512 usuarios al mismo tiempo puede consumir hasta 512 gigabytes de memoria solo en el caché. Casi cuatro veces lo que necesita el modelo en sí.
Eso se traduce en hardware, electricidad y un límite muy concreto sobre cuánto puede durar una conversación antes de que el sistema colapse o se vuelva prohibitivamente caro.
Lo que Google acaba de cambiar

El 24 de marzo, Google Research publicó TurboQuant: un algoritmo que comprime ese caché hasta seis veces sin perder calidad. El resultado fue presentado en ICLR 2026, la conferencia más importante de aprendizaje automático del año.
Lo notable no es solo el nivel de compresión. Es que funciona sin reentrenar el modelo, sin calibrarlo, sin datos específicos. Se aplica directamente encima de lo que ya existe. Y en los benchmarks estándar —comprensión de textos, generación de código, resumen— el modelo comprimido obtuvo resultados idénticos al modelo original.
Los investigadores usan la expresión ‘neutralidad absoluta de calidad’. No aproximada. Idéntica.
El algoritmo también demostró hasta ocho veces más velocidad en el cálculo de atención sobre GPUs H100, el hardware más avanzado disponible hoy. Ese número aplica al componente específico de atención, no a la inferencia completa, pero sigue siendo una diferencia operativa significativa.
Por qué importa más allá de lo técnico

Si el caché ocupa seis veces menos memoria, el mismo hardware puede atender seis veces más usuarios, sostener conversaciones seis veces más largas o correr modelos más grandes en dispositivos con menos recursos. Las tres opciones son reales, con distinto balance según el caso.
Google no publicó código oficial. Aun así, en pocos días de anunciado el paper, desarrolladores independientes replicaron los resultados desde cero. Uno probó el sistema en una GPU de consumo doméstico y obtuvo respuestas idénticas bit a bit al modelo sin comprimir. Eso no pasa seguido. Significa que el paper dice lo que dice.
Hay una carrera silenciosa para abaratar el costo de operar la IA. No de construirla. De usarla todos los días. Esa carrera no tiene portadas ni presentaciones con aplausos, pero es la que va a determinar qué empresas pueden escalar sus modelos y cuáles van a descubrir que el límite no es lo que saben hacer, sino cuánto cuesta seguir haciéndolo.
La IA más inteligente del mundo no sirve de nada si no podés pagarla.
Últimas Noticias
iOS 26.4 estrena modo antirrobo activado por automáticamente en el iPhone
Con la función activa, operaciones cruciales como cerrar la sesión de iCloud solo pueden realizarse si el usuario es identificado mediante Face ID

Android Auto cambia por completo la experiencia musical a bordo de cualquier vehículo y gratis
Uno de los principales focos de esta actualización está en las aplicaciones multimedia, especialmente en YouTube Music

Almacena más datos usando menos espacio y con este truco holográfico: cómo funciona
La tecnología permite aumentar la cantidad de datos almacenados en un solo material respecto a los discos duros tradicionales

Wikipedia le pone límites a la inteligencia artificial: lo que lees puede que no sea real
La enciclopedia en línea estableció nuevas reglas para limitar el uso de inteligencia artificial en la edición y redacción de artículos

Jennie, el perro robótico que redefine el cuidado médico: qué beneficios terapéuticos aporta en personas mayores
Una compañía de EE. UU. apostó por la integración de rasgos humanos y tecnología de vanguardia para facilitar el apego emocional en hospitales y residencias



