
Microsoft ha anunciado dos nuevos modelos de lenguaje pequeños (SLM, por sus siglas en inglés) de la familia Phi, Phi-4-multimodal y Phi-4-mini, que están diseñados para brindar a los desarrolladores capacidades de Inteligencia Artificial (IA) avanzadas en tareas de procesamiento de voz, texto e imágenes.
La compañía ha comentado en su blog que estos modelos son "ideales para escenarios extremos y entornos con limitaciones de cómputo" y ya se están utilizando para explorar diferentes casos de uso en diversas industrias, incluida la detección de anomalías en la fabricación o la mejora de las experiencias de los clientes en el comercio minorista.
Phi-4-multimodal es un modelo de 5.600 millones de parámetros, que integra procesamiento de voz, imágenes y texto en una única arquitectura unificada. Debido a que aprovecha técnicas avanzadas de aprendizaje intermodal, permite interacciones "más naturales y sensibles al contexto", según ha explicado Microsoft.
Este modelo puede procesar tanto imágenes como audio a la vez, así como gráficos, tablas y documentos, superando a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large, en las tareas de reconocimiento automático de voz y traducción. Además, ofrece una inferencia de baja latencia y alta eficiencia mientras se optimiza la ejecución en el dispositivo y se reduce la sobrecarga computacional.
Microsoft también ha señalado que Phi-4-multimodal "se encuentra entre los pocos modelos abiertos que implementan con éxito el resumen de voz" y alcanzan niveles de rendimiento de GPT-4o. No obstante, presenta una brecha con otros modelos como Gemini-2.0-Flash en tareas de respuesta a preguntas, por lo que está trabajando para mejorar esta capacidad en las próximas iteraciones.
Phi-4-mini, por su parte, es un modelo de 3.800 millones de parámetros, con una capacidad de responder a consultas agrupadas, un vocabulario de 200.000 palabras y "está diseñado para la velocidad y la eficiencia". En este sentido, la marcha ha indicado que, a pesar de que tiene un tamaño compacto, sigue superando a los modelos más grandes en tares basadas en texto, incluido el razonamiento, las matemáticas, el seguimiento de instrucciones y la codificación.
Este modelo admite secuencias de hasta 128.000 tokens y brinda alta precisión y escalabilidad para que los desarrolladores puedan adaptarlo en aplicaciones de IA avanzadas. Además, se puede integrar en interfaces de programación estructuradas.
Microsoft ha señalado finalmente que tanto Phi-4-multimodal como y Phi-4-mini ya están disponibles en Azure AI Foundry, Hugging Face y Nvidia API Catalog, con una experiencia multimodal completa.
Últimas Noticias
Flick: "Hay muchas cosas que me gustan pero también situaciones a mejorar"
Tras superar al Sevilla, el técnico alemán valoró el esfuerzo colectivo y celebró el desempeño ofensivo, pero enfatizó que su plantilla debe elevar intensidad y ritmo de cara al decisivo enfrentamiento europeo ante el Newcastle, previsto para el miércoles

Revelado un contrato por 5 millones de dólares a cambio del apoyo de Milei a la criptomoneda $LIBRA
Una pesquisa judicial vinculada con la criptomoneda en Argentina identificó un acuerdo que involucra a un mandatario local, empresarios estadounidenses y asesores clave, tras detectar pagos millonarios y movimientos telefónicos justo antes del estallido de un escándalo financiero

El Real Madrid aleja a la Real Sociedad de la segunda plaza en la Liga F Moeve

CONMEBOL y AFA aceptaron la sede neutral pero no la fecha para la Finalissima
Tras intensas negociaciones y propuestas alternativas, el enfrentamiento entre la albiceleste y la selección española quedó oficialmente suspendido al no alcanzarse un consenso sobre el momento adecuado para organizar el evento en Italia según fuentes oficiales

Fallece una persona tras sufrir un accidente con un tractor en Fuente-Tójar
El servicio de emergencias 112 movilizó helicóptero y equipos de rescate tras registrarse un siniestro en una finca cordobesa, donde la víctima quedó atrapada en un área de complicado acceso, informaron fuentes oficiales
