
Alibaba ha presentado su nuevo modelo de Inteligencia Artificial (IA) Qwen VLo, con capacidades de comprensión y generación de contenido multimodal, ideado para generar y modificar imágenes de alta calidad a partir de entradas de texto, con una técnica de generación progresiva.
La tecnológica china lanzó el último integrante de su familia de modelos de lenguaje grande (LLM) multimodales, Qwen2.5-VL, en enero de este año, subrayando sus habilidades para analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma. Tras ello, ha continuado trabajando en la mejora de la capacidad del modelo para comprender el contenido de las imágenes.
Como resultado, Alibaba ha presentado su nuevo modelo unificado de comprensión y generación multimodal Qwen VLo, ideado para generar y modificar imágenes de alta calidad de forma sencilla, a partir de entradas de texto y mediante un proceso de generación progresiva.
Según ha matizado la compañía en un comunicado en su blog, este modelo actualizado "no solo comprende el mundo", sino que también genera recreaciones de alta calidad basadas en dicha capacidad de comprensión, "acortando la percepción y la creación". Es decir, se trata de un modelo que entiende lo que ve y crea contenido en base a dicha realidad.
En este sentido, los usuarios pueden lanzar una solicitud en forma de texto con lenguaje natural para que Qwen VLo genere una imagen nueva, así como compartir una o varias fotografía reales y pedir que las modifique indicando las características que se desean cambiar.
Para llevar a cabo estas tareas, Qwen VLo se basa en un método de generación progresiva. Esto es, un sistema mediante el que construye gradualmente la imagen completa, de izquierda a derecha y de arriba a abajo, a partir de una estructura básica o imagen borrosa, según ha explicado Alibaba. Por tanto, el modelo genera el contenido agregando capas, colores y texturas.
Así, este proceso permite generar el contenido perfeccionando y optimizando continuamente las predicciones del modelo a medida que construye la imagen, de manera que consigue garantizar que el resultado final sea "coherente y armonioso". Además, ofrece resultados de mejor calidad visual y una experiencia creativa "más flexible y controlable" para los usuarios, ya que pueden observar y ajustar el proceso de creación en tiempo real en base a sus necesidades.
Con todo ello, Alibaba ha destacado las mejoras integrales tanto en comprensión multimodal, a la hora de procesar texto, imágenes, audio y vídeo, como en las capacidades de generación que ofrece con Qwen VLo.
Según ha indicado, los modelos multimodales anteriores "solían presentar inconsistencias semánticas durante el proceso de generación", como la imposibilidad de conservar las características estructurales clave de la imagen original, sin embargo, Qwen VLo puede capturar dichos detalles y mantiene un "alto nivel de consistencia semántica" durante todo el proceso.
Esto permite que los usuarios puedan proporcionar instrucciones creativas en lenguaje natural, incluyendo referencias de estilo artístico o retoques detallados, y el modelo los gestiona "con facilidad". Por ejemplo, modificar objetos, editar texto y cambiar fondos, todo con un solo comando.
Por el momento, Alibaba ha señalado que Qwen VLo se ha lanzado en formato de versión preliminar, por lo que los usuarios pueden comenzar a probar sus habilidades para generar imágenes a través del chat Qwen. Asimismo, Qwen VLo admite varios idiomas, incluyendo chino e inglés.
Últimas Noticias
La Administración Trump acusa a Anthropic de imponer términos "inaceptables" por su negativa al Pentágono
El Departamento de Justicia de Estados Unidos sostiene que la postura de Anthropic frente al uso militar de su tecnología supone un peligro nacional, defendiendo ante el tribunal su exclusión de contratos con el Pentágono tras la demanda de la empresa

UNICEF condena el asesinato de dos hermanos palestinos y sus padres en Tammun, Cisjordania
El organismo de la ONU pidió a las autoridades israelíes acciones inmediatas para salvaguardar a los menores palestinos, reclamando justicia y la prevención de nuevos ataques tras la muerte de una familia en la ciudad cisjordana de Tammun

El hijo de Pezeshkian dice que Irán "fracasará" si no logra detener los asesinatos contra sus dirigentes

Al menos 17 muertos y más de 30 heridos en una nueva oleada de ataques israelíes contra Líbano

Rusia reconoce que Ucrania cuadruplicó sus ataques contra la infraestructura energética
