Meta presenta V-JEPA, un modelo predictivo que aprende mediante la visualización de vídeos incompletos

Guardar

Meta ha presentado un nuevo modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos. El nuevo modelo, que recibe el nombre de Video Joint Embedding Predictive Architecture (V-JEPA), aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto. Se trata de un modelo que ha sido previamente entrenado con datos sin etiquetar y en el que se ha aplicado un enfoque de aprendizaje autosupervisado a partir de un conjunto de vídeos "para obtener algún contexto sobre el mundo que nos rodea inmediatamente", como exponen desde la compañía en el blog de IA. A esto se le ha añadido una mecánica de enmascaramiento, por la que se eliminaron partes de los vídeos atendiendo a los cambios que pudieran mostrar (espacio y tiempo), para que el modelo desarrollara una comprensión más profunda de la escena. De esta forma, a diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, ya que "se centra en la información conceptual de nivel superior de lo que contiene el vídeo sin preocuparse por el tipo de detalles que a menudo no son importantes para las tareas posteriores". La compañía ha destacado que el modelo es bueno haciendo "evaluaciones congeladas", es decir, que los investigadores ya no "tocan nada" después del entrenamiento previo autosupervisado en el codifiador y el predictor. En el caso de que quieran que aprenda una habilidad nueva, solo tienen que entrenar una pequeña capa especializada, lo que hace que el proceso sea "muy eficiente y rápido". "Con V-JEPA podemos entrenar previamente el modelo una vez sin ningún dato etiquetado, arreglarlo y luego reutilizar esas mismas partes del modelo para varias tareas diferentes, como clasificación de acciones, reconocimiento de interacciones detalladas de objetos y localización de actividades", detallan. En un futuro, los investigadores de Meta pretenden adoptar un enfoque multimodal -no limitado al vídeo-, empezando por la incorporación de audio, ya que hasta ahora solo han trabajado con las imágenes. Asimismo, esperan profundizar en las capacidades predictivas del modelo para utilizarlo en la planificación y la toma de decisiones secuenciales.

EuropaPress

Últimas Noticias

Alemania estudia un impuesto sobre los beneficios extraordinarios de las petroleras por la crisis energética

El gobierno germano analiza crear un tributo dirigido a gravar ingresos extraordinarios de compañías energéticas, cuya implementación podría financiar iniciativas de transporte y contener el impacto de la crisis, según fuentes oficiales y medios locales

El Parlamento portugués aprueba varios proyectos de ley para recortar los derechos de las personas trans

La Cámara lusa ha aprobado cambios normativos propuestos por partidos conservadores, que endurecen el acceso al cambio legal de nombre y género y restringen tratamientos médicos para menores, generando preocupación entre organizaciones de derechos humanos y colectivos LGTBIQ+

La Justicia de EEUU condena a 25 años de prisión al exjefe antidroga de Bolivia Maximiliano Dávila

El antiguo responsable boliviano fue sentenciado en Nueva York por facilitar el traslado de cocaína a gran escala, abuso de poder y protección a narcos, según la Fiscalía y la DEA, tras una compleja investigación internacional

Noboa sobre la crisis con Petro: "en un mes me saldrán con un cuento más"

En una entrevista radial, el presidente ecuatoriano desestimó el conflicto diplomático con el gobierno colombiano, atribuyéndolo al contexto electoral en Bogotá y a presiones económicas, en vísperas de una reunión binacional clave en Lima

Temas Relacionados