Chameleon, el nuevo modelo multimodal de Meta que adopta un enfoque unificado para razonar y generar respuestas mixtas

Guardar

Nuevo

Chameleon es la última familia de modelos de inteligencia artificial (IA) del catálogo que desarrolla Meta, con el que la compañía avanza hacia una tecnología con capacidad para razonar y generar resultados con una mezcla de imagen y texto a partir de un enfoque de diseño unificado. Frente a los modelos multimodales que adquieren las diferentes capacidades modales de manera separada, esto es, la comprensión y generación de texto, de imágenes, de vídeos, de audio; Meta ha adoptado un enfoque diferente para que Chameleon pueda razonar y generar respuestas multimodales con secuencias arbitrarias de texto e imagen. Para conseguirlo, los investigadores de Meta han establecido "un entrenamiento estable desde el principio, una fórmula de ajuste y una parametrización arquitectónica adaptada a la fusión temprana, basada en tokens y con una configuración modal mixta", explican en el texto de la investigación, publicado en Arxiv.org. Para comprobar el avance que supone, evaluaron Chameleon en una amplia variedad de tareas, que incluye "la respuesta visual a preguntas, el subtitulado de imágenes, la generación de texto, la generación de imágenes y la generación modal mixta de formato largo". Los resultados obtenido permiten a los investigadores afirmar que tiene un rendimiento a la altura de otros modelos generativos avanzados, como Mixtral 8x7B y Gemini-Pro en tareas de solo texto, una categoría en la que incluso supera a Llama 2. En una nueva evaluación de generación modal mixta de forma largo, en la que la entrada y la respuesta entremezclan imagen y texto, Chameleon incluso ha demostrado "igualar o superar" el rendimiento de modelos de gran tamaño, como Gemini Pro y GPT-4V.

Guardar

Nuevo