El modelo Qwen2.5-VL de Alibaba Cloud puede analizar documentos, comprender vídeos y ejecutar tareas en móviles y PC

Alibaba Cloud presenta Qwen2.5-VL, un modelo de IA que destaca en análisis de documentos y comprensión de vídeos,, con capacidad para ejecutar tareas autónomas en dispositivos móviles y ordenadores

Guardar

Alibaba Cloud ha anunciado un nuevo modelo de Inteligencia Artificial (IA) denominado Qwen2.5-VL, que se incluye en su familia de modelos de lenguaje grande (LLM) multimodales Qwen y que puede analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma en 'smartphones' y ordenadores.

La compañía tecnológica china ha aprovechado el interés que está generando el asistente DeepSeek, lanzado por la compañía homónima y también de origen chino, para presentar un modelo de lenguaje que reúne capacidades similares a este 'chatbot' gratuito.

En su caso, Alibaba Cloud ha explicado que el nuevo Qwen2.5-VL deriva de Qwen2-VL, que los desarrolladores han estado probando en los últimos cinco meses y gracias al cual han logrado crear un modelo de lenguaje "más útil". De ese modo, éste "da un salto significativo con respecto al modelo anterior" y lo ha mejorado al incorporar "potentes capacidades de análisis de documentos", tal y como ha señalado la compañía en una entrada publicada en GitHub y en su blog.

Más concretamente, puede analizar documentos de gran tamaño, en varias lenguas, con diferentes orientaciones del texto y con otros elementos integrados. Por ejemplo, entradas de texto manuales, tablas, gráficos, fórmulas químicas y partituras musicales.

También ha mejorado significativamente sus capacidades generales de reconocimiento de imágenes, ampliando su clasificación a diferentes categorías, productos, objetos y escenarios, como plantas, animales, monumentos o ríos, así como capturas de películas y series de televisión.

Asimismo, se puede utilizar para obtener una precisión mejorada de coordenadas absolutas y formatos pensados para el intercambio de datos Javacript Object Notation (JSON), que sirve como base para ejecutar un razonamiento espacial avanzado. En ese caso, puede detectar cuántas motos hay en una carretera, dónde se sitúan y si los conductores llevan casco, entre otras opciones.

Este modelo también puede comprender vídeos "que duren horas" y, al mismo tiempo, extraer segmentos de escenas en unos segundos; y brinda capacidades avanzadas de razonamiento y toma de decisiones, potenciando el modelo con una funcionalidad de agente autónomo en 'smartphones' y ordenadores. Esto significa que tiene un funcionamiento muy parecido a Operator, recientemente lanzado por OpenAI.

Los desarrolladores han avanzado otras actualizaciones de la arquitectura del modelo, como que este modelo no solo convierte imágenes de diferentes tamaños en tokens de longitudes variables de forma dinámica, sino que también representa coordenadas como puntos de detección empleando la escala de tamaño real a la imagen.

Esto, en la denominada dimensión espacial. En la temporal, se han introducido tanto el entrenamiento dinámico de fotogramas por segundo (fps) como la codificación de tiempo absoluto. Gracias a ello, el modelo puede aprender una secuencia y su velocidad, así como identificar momentos específicos de un vídeo. Por otra parte, se ha mejorado la velocidad de entrenamiento y de la inferencia, al implementar la arquitectura del transformador de visión (ViT) de forma nativa.

Finalmente, han señalado que, "en un futuro cercano", mejorarán las capacidades de razonamiento y resolución del problemas del modelo, al tiempo que incorporarán más modalidades. Gracias a esto, Qwen25-VL será "más inteligente" y les permitirá llegar a un modelo completo que les permita manejar "múltiples tipos de entradas y tareas".

El equipo de desarrollo de Qwen ha puesto el modelo base Qwen2.5-VL a disposición de los desarrolladores y adaptado a tres tamaños (3B, 7B y 72B) para cubrir sus necesidades. Se puede obtener a través de Hugging Face y ModelScope.

Últimas Noticias

Un total de 65 presos han sido ya excarcelados en Venezuela tras la aprobación de la ley de amnistía

Desde la aprobación del nuevo marco legal en la Asamblea Nacional, organizaciones defensoras de derechos humanos reportan la liberación de decenas de personas bajo custodia judicial, mientras persisten protestas y huelgas ante reclamos de cobertura limitada

Un total de 65 presos

Gemma Camacho responde a Tamara Gorro: "Yo estoy aquí por mis estudios, tú por buscar pareja en televisión"

Gemma Camacho responde a Tamara

Un español, entre los nominados por la NFL a 'Aficionado Internacional del Año 2025'

Cristian Saban Carretero, procedente de Cádiz y elegido por los Chicago Bears como su fanático destacado, figura entre quienes aspiran a ser reconocidos en el NFL Draft 2026, donde se desvelará el galardonado del certamen internacional

Un español, entre los nominados

Dreame prepara su expansión para 2026, apostando más allá de la limpieza inteligente para dar paso al ecosistema del hog

La firma china ha anunciado su hoja de ruta para el próximo año, impulsando su presencia en la Península Ibérica, lanzando nuevos electrodomésticos y abriendo puntos de venta propios, con el objetivo de liderar el entorno tecnológico doméstico conectado

Dreame prepara su expansión para

El MWC 2026 abordará siete tendencias que definirán el futuro del sector 'telco', según Nae (Minsait)

La cita "la resiliencia de las redes de telecomunicaciones y del negocio en general va a ser clave" resume el enfoque estratégico de la próxima edición, marcado por inteligencia artificial, nuevas arquitecturas y automatización, según consultores de Minsait

El MWC 2026 abordará siete