
Intel y el Instituto de Ciencias Weizmann han presentado un avance en la decodificación especulativa, un nuevo método de gestión de algoritmos de inteligencia artificial (IA) que permite multiplicar por 2,8 la inferencia de los grandes modelos de lenguaje (LLM).
La decodificación especulativa es una técnica de optimización de inferencias diseñada para que los modelos de aprendizaje profundo (LMR) sean más rápidos y eficientes a la hora de resolver solicitudes, sin comprometer la precisión.
Esta técnica funciona combinando un modelo pequeño y rápido que genera la respuesta, con uno más grande y preciso que la comprueba y valida. Sin embargo, puede ocasionar dificultades cuando se utiliza con distintos vocabularios.
En este marco, investigadores de Intel y del Instituto de Ciencias Weizmann han hallado un nuevo procedimiento con el que permiten aumentar en hasta 2,8 veces la velocidad de inferencia de los LLM, al facilitar la decodificación especulativa en modelos heterogéneos.
La tecnológica ha dado a conocer este avance en el marco de la Conferencia Internacional sobre Aprendizaje Automático (ICML), celebrada en Vancouver (Canadá), que permite que cualquier modelo pequeño "en borrador" acelere cualquier LLM, "independientemente de las diferencias de vocabulario".
Así, esta novedad soluciona una "ineficiencia fundamental en la IA generativa", tal y como ha detallado Intel en un comunicado, donde ha subrayado que, además, también funciona con modelos de diferentes desarrolladores y ecosistemas, y de código abierto, lo que lo hace una novedad "independiente del proveedor".
Concretamente, el nuevo método se basa en tres nuevos algoritmos, que "desacoplan la codificación especulativa de la alineación de vocabulario". De esta manera, se facilita la implementación flexible de LLM y permite combinar cualquier borrador de modelo pequeño con cualquier modelo grande para optimizar la velocidad y el coste de la inferencia .
"En un panorama fragmentado de IA, este avance en la decodificación especulativa promueve la apertura, la interoperabilidad y una implementación rentable desde la nube hasta el edge", ha sentenciado la tecnológica, al tiempo que ha matizado que desarrolladores, empresas e investigadores "ahora pueden combinar modelos para adaptarse a sus necesidades de rendimiento y a las limitaciones de hardware".
Con todo ello, Intel ha compartido que los algoritmos ya están disponibles en la biblioteca de código abierto de Hugging Face Transformers.
Últimas Noticias
El nuevo embajador de EEUU en Chile se reúne con Jara tras mostrar sus preferencias sobre las elecciones
Las expresiones del representante estadounidense en medio de la contienda electoral chilena provocaron una queja formal, reavivando el debate sobre la influencia exterior en la política local mientras ambos gobiernos intentan mantener la cooperación bilateral en temas estratégicos

El ente electoral de Honduras denuncia un parón en el escrutinio por parte de la empresa responsable
La suspensión intempestiva del sistema digital encargado de difundir datos electorales provocó incertidumbre, tensó el clima político y desató reclamos por mayor claridad y vigilancia, mientras persisten dudas sobre la legitimidad y apertura de la fase final del proceso

Aprueban mapa de Congreso de Indiana que favorece a partido de Trump ante comicios de 2026
Andrea Bocelli da concierto en la Casa Blanca para Trump y sus aliados
Reino Unido, "dispuesto a investigar" las denuncias de violaciones y otros delitos de sus tropas en Kenia
El Parlamento de Kenia impulsa la extradición de un militar británico señalado por asesinato y propone crear una fuerza especial ante décadas de abusos atribuidos a soldados extranjeros, mientras Londres expresa disposición a colaborar si existen pruebas concretas
