Intel presenta un método para gestionar algoritmos de aceleración de IA que aumenta en 2,8 la inferencia de los LLM

Guardar

05/02/2025 Comienza el Programa Juventud Emprendedora 2025 con un curso sobre novedades en Inteligencia Artificial POLITICA GOBIERNO DE CANTABRIA

Intel y el Instituto de Ciencias Weizmann han presentado un avance en la decodificación especulativa, un nuevo método de gestión de algoritmos de inteligencia artificial (IA) que permite multiplicar por 2,8 la inferencia de los grandes modelos de lenguaje (LLM).

La decodificación especulativa es una técnica de optimización de inferencias diseñada para que los modelos de aprendizaje profundo (LMR) sean más rápidos y eficientes a la hora de resolver solicitudes, sin comprometer la precisión.

Esta técnica funciona combinando un modelo pequeño y rápido que genera la respuesta, con uno más grande y preciso que la comprueba y valida. Sin embargo, puede ocasionar dificultades cuando se utiliza con distintos vocabularios.

En este marco, investigadores de Intel y del Instituto de Ciencias Weizmann han hallado un nuevo procedimiento con el que permiten aumentar en hasta 2,8 veces la velocidad de inferencia de los LLM, al facilitar la decodificación especulativa en modelos heterogéneos.

La tecnológica ha dado a conocer este avance en el marco de la Conferencia Internacional sobre Aprendizaje Automático (ICML), celebrada en Vancouver (Canadá), que permite que cualquier modelo pequeño "en borrador" acelere cualquier LLM, "independientemente de las diferencias de vocabulario".

Así, esta novedad soluciona una "ineficiencia fundamental en la IA generativa", tal y como ha detallado Intel en un comunicado, donde ha subrayado que, además, también funciona con modelos de diferentes desarrolladores y ecosistemas, y de código abierto, lo que lo hace una novedad "independiente del proveedor".

Concretamente, el nuevo método se basa en tres nuevos algoritmos, que "desacoplan la codificación especulativa de la alineación de vocabulario". De esta manera, se facilita la implementación flexible de LLM y permite combinar cualquier borrador de modelo pequeño con cualquier modelo grande para optimizar la velocidad y el coste de la inferencia .

"En un panorama fragmentado de IA, este avance en la decodificación especulativa promueve la apertura, la interoperabilidad y una implementación rentable desde la nube hasta el edge", ha sentenciado la tecnológica, al tiempo que ha matizado que desarrolladores, empresas e investigadores "ahora pueden combinar modelos para adaptarse a sus necesidades de rendimiento y a las limitaciones de hardware".

Con todo ello, Intel ha compartido que los algoritmos ya están disponibles en la biblioteca de código abierto de Hugging Face Transformers.

EuropaPress

Intel presenta un método para gestionar algoritmos de aceleración de IA que aumenta en 2,8 la inferencia de los LLM

Últimas Noticias

La colombiana Yuvelis Morales y su lucha antifracking, entre las premiadas con el Goldman

Muere en el hospital la séptima víctima del ataque armado del sábado en Kiev

Dimiten el primer ministro y el Gobierno de la República del Congo

Albares lamenta que María Corina Machado haya venido como "líder ideológica" después de que España le ofreció refugio

Rusia cesará al ministro de Sanidad regional tras el sacrificio de ganado en Novosibirsk

Temas Relacionados