
Desarrolladores de Apple dieron a conocer un nuevo modelo de inteligencia artificial en el que está trabajando la empresa, llamado UniGen 1.5, una evolución de su anterior modelo UniGen.
Este avance representa un hito, ya que propone un sistema capaz de ver, crear y editar imágenes dentro de un único marco unificado, dejando atrás la fragmentación habitual en la que tareas como la comprensión, la generación y la edición de imágenes se delegaban a modelos separados.
El trabajo del equipo de investigadores de Apple se centra en perfeccionar una arquitectura que no solo comprenda imágenes, sino que también las genere y las modifique, todo dentro de un mismo sistema.
Qué es UniGen 1.5 y cómo funciona el modelo de Apple
UniGen 1.5 es un modelo de lenguaje grande multimodal (MLLM, por sus siglas en inglés), lo que significa que puede trabajar tanto con información visual como textual. Apple lo diseñó para gestionar integralmente tres tareas claves: comprensión de imágenes, generación de nuevas imágenes a partir de descripciones textuales y edición avanzada de imágenes según instrucciones precisas.
La evolución de UniGen a UniGen 1.5 radica en el fortalecimiento de la arquitectura del modelo y en la optimización de los procesos de entrenamiento. Los desarrolladores de Apple implementaron mejoras dirigidas a perfeccionar la capacidad del sistema para entender exactamente qué cambios requiere una imagen y cómo llevarlos a cabo con precisión.
Este enfoque integral elimina la necesidad de recurrir a modelos distintos para cada función, lo cual simplifica y potencia la experiencia de uso.
Este modelo se basa en una estrategia de aprendizaje por refuerzo especialmente diseñada. Según los investigadores de Apple, UniGen 1.5 utiliza un sistema de recompensa compartido que permite optimizar de manera conjunta tanto la generación como la edición de imágenes.
Esta innovación técnica implica que el modelo recibe incentivos para producir resultados visuales de alta calidad, siguiendo fielmente las instrucciones del usuario, ya sea para crear una imagen desde cero o para modificar una existente.

Por qué este modelo es un avance para Apple y sus usuarios
Antes de UniGen y su actualización, la tendencia general consistía en utilizar modelos específicos para cada tarea visual. Por ejemplo, se empleaba un sistema para analizar imágenes, otro para generarlas y un tercero para editarlas. UniGen 1.5 rompe con este paradigma al integrar todas estas funciones. El modelo es capaz de recibir una descripción textual y transformarla en una imagen coherente, además de analizar imágenes existentes y comprender su contenido.
El modelo no solo interpreta instrucciones generales, sino que también puede manejar ediciones complejas y muy específicas. Uno de los retos más grandes en la edición de imágenes por inteligencia artificial es lograr que el sistema comprenda instrucciones detalladas, como modificar el color de un elemento concreto o realizar cambios suaves y precisos en alguna parte de la imagen.
UniGen 1.5 aborda este desafío, incorporando una etapa innovadora en su proceso de entrenamiento llamada alineación de instrucciones de edición.
Esta etapa consiste en entrenar al modelo para que genere una descripción textual detallada de la imagen editada que se espera obtener, tomando como referencia tanto la imagen original como las instrucciones de modificación.
De este modo, antes de proceder a la edición visual, el sistema se asegura de haber comprendido plenamente la tarea, aumentando la precisión y la calidad del resultado final.
Cuáles son las limitaciones de este modelo
A pesar de los avances, los propios investigadores de Apple reconocen ciertas limitaciones en UniGen 1.5. El sistema aún enfrenta dificultades cuando se le pide generar texto dentro de las imágenes, especialmente en la representación de caracteres precisos o detalles estructurales finos.
Este fenómeno se observa también en otros modelos recientes y suele deberse a la complejidad de traducir instrucciones textuales en gráficos exactos, sobre todo en lo que respecta a tipografía y disposición del texto.
Otra limitación identificada aparece en la coherencia de la identidad visual tras las ediciones. En algunos ejemplos, al modificar imágenes de animales, se notaron diferencias en el color del pelaje o las plumas, e incluso alteraciones en la textura o forma de ciertas partes, lo que demuestra que el modelo aún necesita perfeccionarse para mantener la consistencia visual en todos los casos.
Últimas Noticias
Todos los rumores sobre el nuevo Apple TV que llegaría en 2026: Siri, IA con Apple Intelligence y más
Gracias al nuevo hardware, el Apple TV podría ejecutar videojuegos AAA de forma nativa, ampliando su rol más allá del streaming tradicional

Suscripción a ChatGPT, Rappi, Didi y más apps: estos fueron los gastos hormiga más comunes de los colombianos en 2025
El uso cotidiano de servicios en línea y aplicaciones móviles ha modificado los hábitos de consumo, llevando a que sumas aparentemente menores se conviertan en significativas

Los nombres más populares para bebés nacidos en enero de 2026, según la IA
La inteligencia artificial tiene en cuenta factores como la frecuencia de inscripción en registros civiles, la sonoridad, el significado, la influencia cultural y la adaptabilidad a diferentes espacios

El fin de la palabra podcast ha llegado, los videos de los programas favoritos están desdibujando lo que conocíamos antes
La mezcla de entrevistas, reseñas y fragmentos televisivos en plataformas como YouTube y Spotify está obligando a dejar atrás la definición clásica de este formato

10 inventos tecnológicos que cambiaron el mundo en 2001 y cumplirán 25 años en 2026
Apple, Microsoft y Nintendo fueron algunas de las marcas que dispositivos importantes en el inicio del siglo XXI



