
En el competitivo mercado de la inteligencia artificial generativa, Microsoft irrumpió con una novedad relevante. La compañía presentó MAI-Image-1, su primer modelo propio para la creación de imágenes realistas, disponible en dos de sus plataformas: Bing Image Creator y Copilot Audio Expressions.
El lanzamiento, producido en octubre del presente año, marca una transición clave para Microsoft en su objetivo de reducir la dependencia de tecnologías ajenas y competir de manera directa con actores como OpenAI y Google.
PUBLICIDAD
Cómo será el modelo generador de imágenes de Microsoft
Mustafa Suleyman, jefe de IA de Microsoft, comunicó a través de X que el nuevo modelo busca destacar por su rapidez y calidad en la generación de imágenes a partir de texto. Aunque la herramienta ya está disponible en diversos mercados, se espera su pronta llegada a la Unión Europea, donde todavía no fue habilitada.

De acuerdo con Suleyman, el modelo sobresale en la creación de imágenes de alimentos, paisajes naturales, representaciones con iluminación artística y alto nivel de fotorrealismo.
PUBLICIDAD
El desarrollo de MAI-Image-1 responde a la estrategia de Microsoft de fortalecer su ecosistema de inteligencia artificial con soluciones propias. “MAI-Image-1 sobresale en la generación de imágenes fotorrealistas, como iluminación (por ejemplo, luz reflejada, reflejos), paisajes y mucho más. Esto es especialmente cierto en comparación con muchos modelos más grandes y lentos”, fue publicado en el blog oficial de la compañía.
Desde la perspectiva de Microsoft, la eficiencia del modelo permite a los usuarios crear imágenes en menos tiempo, experimentar con iteraciones y trasladar rápidamente los resultados a otras herramientas de diseño.
PUBLICIDAD
Además de alimentar Bing Image Creator, MAI-Image-1 acompaña también el denominado “modo historia” de la función de texto a voz de Copilot, llamada Copilot Audio Expressions. Esta integración posibilita que las narraciones generadas por inteligencia artificial incluyan arte visual, logrando una experiencia narrativa multimedia.
El modelo constituye un elemento central en la apuesta estratégica de Microsoft para posicionar su asistente IA, Copilot, como una plataforma versátil que fusiona texto e imagen.
PUBLICIDAD
Microsoft lanzó recientemente otros modelos desarrollados internamente, como MAI-Voice-1, dedicado a síntesis de voz, y MAI-1-preview, un modelo de texto planeado para integrarse de manera parcial en Copilot. Según lo indicó la empresa, estas novedades evidencian el crecimiento de su capacidad tecnológica interna. Aún así, Microsoft mantiene acuerdos con otras compañías y ofrece a sus usuarios, dentro de Copilot, opciones como el modelo Claude de Anthropic y las últimas versiones de GPT de OpenAI.
En el creador de imágenes de Bing, MAI-Image-1 aparece como uno de los tres modelos disponibles, junto con DALL-E 3 y GPT-4o, ambos desarrollados por OpenAI.
PUBLICIDAD
Esta coexistencia ilustra el punto de transición, con Microsoft diversificando su oferta para ajustarse al ritmo acelerado de la competencia, mientras facilita a los usuarios una selección más amplia de herramientas de generación visual.
Gemini y ChatGPT, las competencias de Microsoft

La competencia por la hegemonía en la inteligencia artificial generativa se intensifica con el avance de otros gigantes tecnológicos. Google ofrece capacidades similares a través de Gemini, su plataforma de IA conversacional, que integra el modelo propio Imagen (en su versión más reciente, Imagen 2), y Gemini 2.5 Flash Image, una opción que optimiza la generación y edición rápida.
PUBLICIDAD
Los usuarios pueden acceder a esta funcionalidad directamente desde la aplicación de Gemini, pidiendo la creación o edición de imágenes en lenguaje natural.
El modelo ‘Nano Banana’ se distingue por su potencia en la edición y expansión del lienzo (outpainting), además de la generación de imágenes desde cero. Al igual que las soluciones de Microsoft y OpenAI, Google concentra su desarrollo en interfaces de usuario conversacionales donde las tareas de generación visual están profundamente integradas con el procesamiento del lenguaje natural.
PUBLICIDAD
En el caso de OpenAI, el generador de imágenes es DALL-E, actualmente en su versión DALL-E 3. Este sistema se implementa tanto en la versión Plus de ChatGPT como mediante acceso a la API para desarrolladores. DALL-E 3 destaca por la integración nativa con modelos de lenguaje como GPT-4o, lo que amplía la capacidad de interpretar y responder con precisión a instrucciones y descripciones complejas, optimizando los resultados visuales sin intervención manual extensa.
Microsoft mantiene su asociación estratégica con OpenAI, pero el desarrollo autónomo de modelos como MAI-Image-1 refleja una tendencia clara hacia la autonomía tecnológica.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
¿Jugar online mejora con un router Wi-Fi 7? Esto debes saber
Al analizar si es conveniente invertir en un router Wi-Fi 7, conviene repasar los aspectos más determinantes para jugar online de manera óptima

Tarjeta directa y Tarjeta roja fútbol: la búsqueda en Google del Mundial 2026 nada positiva
Detrás de estas páginas, los usuarios pueden encontrar publicidad invasiva, ventanas emergentes engañosas y descargas de archivos sospechosos

Día del Padre 2026: 170 frases cortas para enviar por WhatsApp a última hora
Si quieres una frase enfocada en el agradecimiento, puedes enviar “Gracias por quedarte siempre”; si prefieres una más divertida, puedes optar por “Tus chistes son terribles. ¡Te amo!”

Argentina lidera el Mundial junto a Google: este es el as bajo la manga del equipo de Scaloni
La IA de Google analiza jugadas y estadísticas de rivales para optimizar el rendimiento de la albiceleste, liderada por Messi

Así resuelve Starlink los bloqueos de señal para mantener internet de alta velocidad: la estrategia de Elon Musk
Gracias a una red de satélites de órbita terrestre baja y a la inteligencia del sistema, los usuarios disfrutan de una experiencia continua y confiable



