El modelo Qwen2.5-VL de Alibaba Cloud puede analizar documentos, comprender vídeos y ejecutar tareas en móviles y PC

Guardar

Alibaba Cloud ha anunciado un nuevo modelo de Inteligencia Artificial (IA) denominado Qwen2.5-VL, que se incluye en su familia de modelos de lenguaje grande (LLM) multimodales Qwen y que puede analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma en 'smartphones' y ordenadores.

La compañía tecnológica china ha aprovechado el interés que está generando el asistente DeepSeek, lanzado por la compañía homónima y también de origen chino, para presentar un modelo de lenguaje que reúne capacidades similares a este 'chatbot' gratuito.

En su caso, Alibaba Cloud ha explicado que el nuevo Qwen2.5-VL deriva de Qwen2-VL, que los desarrolladores han estado probando en los últimos cinco meses y gracias al cual han logrado crear un modelo de lenguaje "más útil". De ese modo, éste "da un salto significativo con respecto al modelo anterior" y lo ha mejorado al incorporar "potentes capacidades de análisis de documentos", tal y como ha señalado la compañía en una entrada publicada en GitHub y en su blog.

Más concretamente, puede analizar documentos de gran tamaño, en varias lenguas, con diferentes orientaciones del texto y con otros elementos integrados. Por ejemplo, entradas de texto manuales, tablas, gráficos, fórmulas químicas y partituras musicales.

También ha mejorado significativamente sus capacidades generales de reconocimiento de imágenes, ampliando su clasificación a diferentes categorías, productos, objetos y escenarios, como plantas, animales, monumentos o ríos, así como capturas de películas y series de televisión.

Asimismo, se puede utilizar para obtener una precisión mejorada de coordenadas absolutas y formatos pensados para el intercambio de datos Javacript Object Notation (JSON), que sirve como base para ejecutar un razonamiento espacial avanzado. En ese caso, puede detectar cuántas motos hay en una carretera, dónde se sitúan y si los conductores llevan casco, entre otras opciones.

Este modelo también puede comprender vídeos "que duren horas" y, al mismo tiempo, extraer segmentos de escenas en unos segundos; y brinda capacidades avanzadas de razonamiento y toma de decisiones, potenciando el modelo con una funcionalidad de agente autónomo en 'smartphones' y ordenadores. Esto significa que tiene un funcionamiento muy parecido a Operator, recientemente lanzado por OpenAI.

Los desarrolladores han avanzado otras actualizaciones de la arquitectura del modelo, como que este modelo no solo convierte imágenes de diferentes tamaños en tokens de longitudes variables de forma dinámica, sino que también representa coordenadas como puntos de detección empleando la escala de tamaño real a la imagen.

Esto, en la denominada dimensión espacial. En la temporal, se han introducido tanto el entrenamiento dinámico de fotogramas por segundo (fps) como la codificación de tiempo absoluto. Gracias a ello, el modelo puede aprender una secuencia y su velocidad, así como identificar momentos específicos de un vídeo. Por otra parte, se ha mejorado la velocidad de entrenamiento y de la inferencia, al implementar la arquitectura del transformador de visión (ViT) de forma nativa.

Finalmente, han señalado que, "en un futuro cercano", mejorarán las capacidades de razonamiento y resolución del problemas del modelo, al tiempo que incorporarán más modalidades. Gracias a esto, Qwen25-VL será "más inteligente" y les permitirá llegar a un modelo completo que les permita manejar "múltiples tipos de entradas y tareas".

El equipo de desarrollo de Qwen ha puesto el modelo base Qwen2.5-VL a disposición de los desarrolladores y adaptado a tres tamaños (3B, 7B y 72B) para cubrir sus necesidades. Se puede obtener a través de Hugging Face y ModelScope.

Últimas Noticias

El Gobierno veta la enmienda del PP que limita la regularización de inmigrantes alegando un sobrecoste de 16,8 millones

José María Almoguera, con una sonrisa forzada, responde tajante a Alejandra Rubio: "Nos llevábamos"

Tensión familiar en aumento tras la reacción sarcástica de Almoguera a las declaraciones de su prima, quien le reprocha interés mediático y distanciamiento, mientras ambos exponen sus diferencias ante la reciente noticia del embarazo de Rubio

La Audiencia Nacional acuerda interrogar a 'Anboto' y otros exdirigentes de ETA por el atentado de Santa Pola en 2002

Rusia frustra una serie de ataques terroristas presuntamente vinculados a Ucrania en territorio ruso

Las autoridades han comunicado la detención en Moscú de un extranjero con cientos de explosivos ocultos, atribuyendo el intento de ataque a inteligencia ucraniana y aumentando la vigilancia en instalaciones críticas y zonas de operaciones militares locales

Adif ya ha respondido a más de 100 requerimientos de los investigadores del accidente de Adamuz

El presidente de la entidad ferroviaria aseguró ante el Congreso que han entregado extensos informes y documentación a diversas autoridades y órganos judiciales, reiterando el compromiso de colaborar en cada etapa de la investigación sobre el siniestro ocurrido en Córdoba

Temas Relacionados