
En el competitivo mercado de la inteligencia artificial generativa, Microsoft irrumpió con una novedad relevante. La compañía presentó MAI-Image-1, su primer modelo propio para la creación de imágenes realistas, disponible en dos de sus plataformas: Bing Image Creator y Copilot Audio Expressions.
El lanzamiento, producido en octubre del presente año, marca una transición clave para Microsoft en su objetivo de reducir la dependencia de tecnologías ajenas y competir de manera directa con actores como OpenAI y Google.
Cómo será el modelo generador de imágenes de Microsoft
Mustafa Suleyman, jefe de IA de Microsoft, comunicó a través de X que el nuevo modelo busca destacar por su rapidez y calidad en la generación de imágenes a partir de texto. Aunque la herramienta ya está disponible en diversos mercados, se espera su pronta llegada a la Unión Europea, donde todavía no fue habilitada.

De acuerdo con Suleyman, el modelo sobresale en la creación de imágenes de alimentos, paisajes naturales, representaciones con iluminación artística y alto nivel de fotorrealismo.
El desarrollo de MAI-Image-1 responde a la estrategia de Microsoft de fortalecer su ecosistema de inteligencia artificial con soluciones propias. “MAI-Image-1 sobresale en la generación de imágenes fotorrealistas, como iluminación (por ejemplo, luz reflejada, reflejos), paisajes y mucho más. Esto es especialmente cierto en comparación con muchos modelos más grandes y lentos”, fue publicado en el blog oficial de la compañía.
Desde la perspectiva de Microsoft, la eficiencia del modelo permite a los usuarios crear imágenes en menos tiempo, experimentar con iteraciones y trasladar rápidamente los resultados a otras herramientas de diseño.
Además de alimentar Bing Image Creator, MAI-Image-1 acompaña también el denominado “modo historia” de la función de texto a voz de Copilot, llamada Copilot Audio Expressions. Esta integración posibilita que las narraciones generadas por inteligencia artificial incluyan arte visual, logrando una experiencia narrativa multimedia.
El modelo constituye un elemento central en la apuesta estratégica de Microsoft para posicionar su asistente IA, Copilot, como una plataforma versátil que fusiona texto e imagen.
Microsoft lanzó recientemente otros modelos desarrollados internamente, como MAI-Voice-1, dedicado a síntesis de voz, y MAI-1-preview, un modelo de texto planeado para integrarse de manera parcial en Copilot. Según lo indicó la empresa, estas novedades evidencian el crecimiento de su capacidad tecnológica interna. Aún así, Microsoft mantiene acuerdos con otras compañías y ofrece a sus usuarios, dentro de Copilot, opciones como el modelo Claude de Anthropic y las últimas versiones de GPT de OpenAI.
En el creador de imágenes de Bing, MAI-Image-1 aparece como uno de los tres modelos disponibles, junto con DALL-E 3 y GPT-4o, ambos desarrollados por OpenAI.
Esta coexistencia ilustra el punto de transición, con Microsoft diversificando su oferta para ajustarse al ritmo acelerado de la competencia, mientras facilita a los usuarios una selección más amplia de herramientas de generación visual.
Gemini y ChatGPT, las competencias de Microsoft

La competencia por la hegemonía en la inteligencia artificial generativa se intensifica con el avance de otros gigantes tecnológicos. Google ofrece capacidades similares a través de Gemini, su plataforma de IA conversacional, que integra el modelo propio Imagen (en su versión más reciente, Imagen 2), y Gemini 2.5 Flash Image, una opción que optimiza la generación y edición rápida.
Los usuarios pueden acceder a esta funcionalidad directamente desde la aplicación de Gemini, pidiendo la creación o edición de imágenes en lenguaje natural.
El modelo ‘Nano Banana’ se distingue por su potencia en la edición y expansión del lienzo (outpainting), además de la generación de imágenes desde cero. Al igual que las soluciones de Microsoft y OpenAI, Google concentra su desarrollo en interfaces de usuario conversacionales donde las tareas de generación visual están profundamente integradas con el procesamiento del lenguaje natural.
En el caso de OpenAI, el generador de imágenes es DALL-E, actualmente en su versión DALL-E 3. Este sistema se implementa tanto en la versión Plus de ChatGPT como mediante acceso a la API para desarrolladores. DALL-E 3 destaca por la integración nativa con modelos de lenguaje como GPT-4o, lo que amplía la capacidad de interpretar y responder con precisión a instrucciones y descripciones complejas, optimizando los resultados visuales sin intervención manual extensa.
Microsoft mantiene su asociación estratégica con OpenAI, pero el desarrollo autónomo de modelos como MAI-Image-1 refleja una tendencia clara hacia la autonomía tecnológica.
Últimas Noticias
¿Cortesía con la IA?: la respuesta científica sobre el impacto de ser educado con los chatbots
Los investigadores probaron instrucciones con distintos grados de educación, desde mensajes groseros hasta otros excesivamente formales

El peligro de ‘Zombie ZIP’: ‘malware’ para antivirus dentro de archivos comprimidos
Este método malicioso aprovecha la forma en que los antivirus y programas de descompresión leen la información contenida en los archivos ZIP

Bumble vuela en bolsa tras anunciar su reinvención con tecnología de IA
Las acciones de la compañía registraron un alza superior al 40% en las primeras horas de negociación

50 años de Apple: la compañía lanza cuenta de Instagram para festejar su aniversario
Hello Apple nace como un espacio para mostrar el ecosistema de productos y servicios de la compañía a través de historias inspiradoras

Tu mascota puede tener su propio celular: así es la tecnología con la que lo puedes llamar y hablar con él a distancia
El dispositivo utiliza inteligencia artificial, sensores y GPS para mejorar el cuidado animal a nivel global




