
OpenAI, AMD, Broadcom, Intel, Microsoft y Nvidia se han asociado para desarrollar el protocolo Multipath Reliable Connection (MRC), que mejora el rendimiento y la resiliencia de las redes de GPU en grandes clústeres de entrenamiento para acelerar el entrenamiento de inteligencia artificial (IA) a gran escala, ya disponible para toda la industria a través del Open Compute Project (OCP).
El entrenamiento de modelos de vanguardia depende de redes de supercomputadoras confiables que puedan transferir datos rápidamente entre GPU de forma sincronizada. Sin embargo, a medida que los sistemas de IA escalan y aumentan los clústeres, cada vez hay más dependencia hacia estas redes, que deben funcionar de forma rápida y eficiente, coordinar cientos de miles de GPU de forma muy sincronizada, intercambiar millones de datos y recuperarse rápidamente de las interrupciones.
PUBLICIDAD
Teniendo en cuenta la importancia de la red, que puede determinar directamente cuánta capacidad de procesamiento se puede utilizar, compañías líderes en la industria de la IA se han unido a OpenAI para desarrollar un protocolo pensado para acelerar el entrenamiento de IA mejorando el rendimiento y la resiliencia de la red de GPU en grandes clústeres de entrenamiento.
Concretamente, se trata del protocolo MRC, del que forman parte tecnológicas como AMD, Broadcom, Intel, Microsoft y Nvidia, que se han unido al desarrollo de esta iniciativa durante un periodo de dos años, ahora disponible para que toda la industria pueda utilizarlo a través del Open Compute Project (OCP), como ha detallado OpenAI en un comunicado.
PUBLICIDAD
Este protocolo está diseñado específicamente para entornos de entrenamiento de IA a gran escala ofreciendo una comunicación continua y de alta velocidad para evitar interrupciones. Para ello, como ha explicado la tecnológica, en lugar de enviar tráfico por una única ruta, MRC distribuye los paquetes simultáneamente a través de múltiples rutas.
Así el protocolo está integrado en las interfaces de red de 800 Gb/s más recientes que permiten distribuir una única transferencia "a través de cientos de rutas", sorteando fallos "en microsegundos" y ejecutando planos de control de red más sencillos.
PUBLICIDAD
Esto "reduce los puntos críticos de congestión de datos" y limita la variación de latencia que puede ralentizar el entrenamiento sincronizado, como ha explicado por su parte AMD en un comunicado. Con ello, cuando se producen fallos, el protocolo MRC permite que la red se adapte rápidamente y redirigiendo el tráfico "prácticamente en tiempo real".
"En términos prácticos, MRC ayuda a convertir la red en un amortiguador para la infraestructura de IA. En lugar de provocar interrupciones ante cada evento, MRC permite que la red se adapte local y rápidamente para que las cargas de trabajo puedan seguir avanzando", ha detallado AMD.
PUBLICIDAD
OpenAI también ha especificado que el protocolo MRC se apoya en el estándar de RDMA sobre Ethernet Convergente (RoCE) de la InfiniBand Trade Association (IBTA), además de basarse en técnicas desarrolladas por el Ultra Ethernet Consortium (UEC).
Con todo ello, MRC ya se ha implementado en todos los superordenadores NVIDIA GB200 más grandes de OpenAI, utilizados para entrenar modelos de vanguardia, así como en los superordenadores Fairwater de Microsoft.
PUBLICIDAD
Asimismo, la especificación MRC ya está disponible como una contribución al Open Compute Project (OCP) para que la comunidad la utilice y desarrolle.
Últimas Noticias
Sánchez condecora a Albanese, relatora de la ONU para los territorios palestinos ocupados
El banco brasileño Bradesco gana 868,2 millones de euros en el primer trimestre, un 13,3% menos

En territorio ruso murieron 85 niños desde el inicio de la guerra en Ucrania, según Rusia
Clavijo anuncia que el crucero no atracará en Canarias: solo fondeará y la evacuación será con una lancha
