Microsoft da un paso en la carrera tecnológica con la presentación del Maia 200, un chip acelerador de inteligencia artificial diseñado para llevar la eficiencia de la inferencia a nuevas alturas.
Este desarrollo, liderado por Scott Guthrie, vicepresidente ejecutivo de Cloud + IA, promete optimizar el rendimiento y reducir costos en la ejecución de modelos de IA a gran escala, ofreciendo ventajas competitivas tanto en velocidad como en eficiencia energética y económica.
Maia 200: Innovación en chips para inferencia de IA
De acuerdo con Microsoft, el Maia 200 es un acelerador fabricado con tecnología de 3 nanómetros de TSMC y equipado con núcleos tensoriales nativos FP8/FP4. El chip incorpora un sistema de memoria rediseñado con 216 GB de HBM3e y 272 MB de SRAM integrada, junto a motores avanzados para el movimiento eficiente de datos.
Estos elementos permiten alimentar modelos de IA de gran tamaño de manera constante, asegurando alta utilización y un incremento significativo en la generación de tokens.
Según los datos proporcionados por la compañía, Maia 200 alcanza un rendimiento FP4 tres veces superior al Amazon Train de tercera generación y supera el desempeño FP8 del TPU de séptima generación de Google. Además, representa el sistema de inferencia más eficiente desplegado por Microsoft hasta la fecha, con un rendimiento por dólar un 30% mayor que el hardware anterior de la empresa.
Este acelerador ya está integrado en centros de datos como US Central en Iowa y próximamente en US West 3, cerca de Phoenix, con planes de expansión global.
Su integración nativa con Azure y la disponibilidad de un kit de desarrollo de software propio (SDK de Maia) garantizan herramientas avanzadas para desarrolladores, permitiendo la portabilidad y optimización de modelos en entornos de hardware heterogéneos.
Arquitectura y rendimiento: detalles técnicos de Maia 200
Microsoft detalla que Maia 200 incorpora más de 140 mil millones de transistores y está concebido para cargas de trabajo de IA a gran escala, priorizando el rendimiento eficiente por dólar. Cada chip es capaz de ofrecer más de 10 petaFLOPS en precisión FP4 y más de 5 petaFLOPS en FP8, todo dentro de un TDP de 750W.
Cabe señalar que esta capacidad permite ejecutar sin esfuerzo modelos de IA de última generación, e incluso dejar margen para los desarrollos futuros más exigentes.
La arquitectura del Maia 200 no solo destaca por la potencia de cómputo, sino por la importancia que se da a la alimentación y movimiento de datos. Microsoft explica que el subsistema de memoria, centrado en datos de precisión estrecha y con un motor DMA especializado, optimiza el flujo de datos y maximiza el rendimiento de los tokens.
Esta estructura reduce los cuellos de botella habituales en la inferencia de IA y favorece una mayor velocidad en la generación y filtrado de datos de alta calidad, clave para el aprendizaje y la mejora continua de los modelos.
Redes, escalabilidad y eficiencia energética en la nube
Otro de los avances introducidos por Maia 200, según Microsoft, es el diseño de una red de escalado de dos niveles basada en Ethernet estándar. Esta arquitectura, que incluye una tarjeta de red integrada y una capa de transporte personalizada, proporciona un ancho de banda bidireccional de 2,8 TB/s dedicado al escalado, así como operaciones colectivas predecibles en clústeres de hasta 6.144 aceleradores.
El sistema está pensado para ofrecer un rendimiento consistente en grandes clústeres de inferencia, minimizando el consumo energético y optimizando los costes en la flota global de Azure.
Dentro de cada bandeja de servidores, cuatro aceleradores Maia están conectados mediante enlaces directos, facilitando una comunicación local de alto ancho de banda y manteniendo la eficiencia en la inferencia.
El protocolo AI-AI permite una escalabilidad fluida entre nodos, racks y clústeres, simplificando la programación y asegurando la flexibilidad de las cargas de trabajo a gran escala.
Desarrollo nativo en la nube y despliegue acelerado
En palabras de Scott Guthrie, “un principio fundamental de los programas de desarrollo de silicio de Microsoft es validar la mayor parte posible del sistema de extremo a extremo antes de la disponibilidad final del silicio”.
El entorno pre-silicio desarrollado por la compañía permitió modelar y optimizar la arquitectura del Maia 200 desde sus primeras etapas, integrando el silicio, las redes y el software del sistema como una unidad coherente.
Guthrie enfatiza que Maia 200 fue diseñado para una integración rápida y sin contratiempos en los centros de datos. “Los modelos de IA funcionaban con silicio Maia 200 a los pocos días de la llegada de la primera pieza empaquetada”, asegura.
El tiempo desde la fabricación del primer chip hasta su despliegue en racks se redujo a menos de la mitad respecto a otros programas de infraestructura de IA, lo que se traduce en mayor utilización y mejoras constantes en el rendimiento por dólar y por vatio a escala de nube.
Además, la integración nativa con el plano de control de Azure proporciona seguridad, telemetría, diagnóstico y gestión tanto a nivel de chip como de rack, maximizando la fiabilidad y el tiempo de actividad para cargas de trabajo críticas en IA.