El modelo Qwen2.5-VL de Alibaba Cloud puede analizar documentos, comprender vídeos y ejecutar tareas en móviles y PC

Alibaba Cloud presenta Qwen2.5-VL, un modelo de IA que destaca en análisis de documentos y comprensión de vídeos,, con capacidad para ejecutar tareas autónomas en dispositivos móviles y ordenadores

Guardar

Alibaba Cloud ha anunciado un nuevo modelo de Inteligencia Artificial (IA) denominado Qwen2.5-VL, que se incluye en su familia de modelos de lenguaje grande (LLM) multimodales Qwen y que puede analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma en 'smartphones' y ordenadores.

La compañía tecnológica china ha aprovechado el interés que está generando el asistente DeepSeek, lanzado por la compañía homónima y también de origen chino, para presentar un modelo de lenguaje que reúne capacidades similares a este 'chatbot' gratuito.

En su caso, Alibaba Cloud ha explicado que el nuevo Qwen2.5-VL deriva de Qwen2-VL, que los desarrolladores han estado probando en los últimos cinco meses y gracias al cual han logrado crear un modelo de lenguaje "más útil". De ese modo, éste "da un salto significativo con respecto al modelo anterior" y lo ha mejorado al incorporar "potentes capacidades de análisis de documentos", tal y como ha señalado la compañía en una entrada publicada en GitHub y en su blog.

Más concretamente, puede analizar documentos de gran tamaño, en varias lenguas, con diferentes orientaciones del texto y con otros elementos integrados. Por ejemplo, entradas de texto manuales, tablas, gráficos, fórmulas químicas y partituras musicales.

También ha mejorado significativamente sus capacidades generales de reconocimiento de imágenes, ampliando su clasificación a diferentes categorías, productos, objetos y escenarios, como plantas, animales, monumentos o ríos, así como capturas de películas y series de televisión.

Asimismo, se puede utilizar para obtener una precisión mejorada de coordenadas absolutas y formatos pensados para el intercambio de datos Javacript Object Notation (JSON), que sirve como base para ejecutar un razonamiento espacial avanzado. En ese caso, puede detectar cuántas motos hay en una carretera, dónde se sitúan y si los conductores llevan casco, entre otras opciones.

Este modelo también puede comprender vídeos "que duren horas" y, al mismo tiempo, extraer segmentos de escenas en unos segundos; y brinda capacidades avanzadas de razonamiento y toma de decisiones, potenciando el modelo con una funcionalidad de agente autónomo en 'smartphones' y ordenadores. Esto significa que tiene un funcionamiento muy parecido a Operator, recientemente lanzado por OpenAI.

Los desarrolladores han avanzado otras actualizaciones de la arquitectura del modelo, como que este modelo no solo convierte imágenes de diferentes tamaños en tokens de longitudes variables de forma dinámica, sino que también representa coordenadas como puntos de detección empleando la escala de tamaño real a la imagen.

Esto, en la denominada dimensión espacial. En la temporal, se han introducido tanto el entrenamiento dinámico de fotogramas por segundo (fps) como la codificación de tiempo absoluto. Gracias a ello, el modelo puede aprender una secuencia y su velocidad, así como identificar momentos específicos de un vídeo. Por otra parte, se ha mejorado la velocidad de entrenamiento y de la inferencia, al implementar la arquitectura del transformador de visión (ViT) de forma nativa.

Finalmente, han señalado que, "en un futuro cercano", mejorarán las capacidades de razonamiento y resolución del problemas del modelo, al tiempo que incorporarán más modalidades. Gracias a esto, Qwen25-VL será "más inteligente" y les permitirá llegar a un modelo completo que les permita manejar "múltiples tipos de entradas y tareas".

El equipo de desarrollo de Qwen ha puesto el modelo base Qwen2.5-VL a disposición de los desarrolladores y adaptado a tres tamaños (3B, 7B y 72B) para cubrir sus necesidades. Se puede obtener a través de Hugging Face y ModelScope.

Últimas Noticias

Ascienden a 34 los muertos y 70 los heridos en el accidente del avión militar estrellado al sur de Colombia

Ascienden a 34 los muertos

Kim Jong Un remarca que Corea del Norte seguirá apostando por su condición de "potencia nuclear"

Durante la apertura de la Asamblea Popular Suprema, el dirigente norcoreano aseguró estar decidido a fortalecer la disuasión atómica, advirtió sobre represalias ante provocaciones de Seúl y renovó críticas hacia Washington y sus aliados por desestabilizar la región

Kim Jong Un remarca que

Von der Leyen y Albanese anuncian el acuerdo comercial entre la UE y Australia

Tras años de diálogo, líderes europeos y australianos celebran la firma de un histórico tratado que impulsará el intercambio económico, eliminará aranceles a múltiples bienes industriales y fortalecerá la cooperación frente a un panorama internacional cada vez más tenso

Von der Leyen y Albanese

Las milicias proiraníes FMP de Irak acusan a EEUU de matar a uno de sus comandantes en un ataque en Anbar (oeste)

Un comandante de una destacada facción respaldada por Teherán perdió la vida junto a varias personas tras un bombardeo imputado a fuerzas norteamericanas, según un duro comunicado que responsabiliza a Washington de violar la soberanía nacional y el derecho internacional

Las milicias proiraníes FMP de

Tres ONG denuncian "interferencia" y "amenazas" contra los periodistas árabes en Haifa, Israel

Organizaciones civiles presentaron una demanda en Haifa solicitando protección judicial para trabajadores de prensa, tras acusaciones de hostigamiento, presiones y agresiones por parte de inspectores municipales durante transmisiones, en medio de tensiones crecientes desde el inicio del último conflicto armado

Tres ONG denuncian "interferencia" y