
Nvidia ha presentado su nuevo modelo de inteligencia artificial, NVLM 1.0, capaz de generar código en cuestión de segundos, responder consultas de cultura general e incluso explicar memes. Este modelo tiene la habilidad de comprender imágenes, gráficos y escritura a mano.
Según la compañía, NVLM 1.0 está diseñado para competir con los modelos de OpenAI y Meta. Nvidia destacó: “Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales (LLM) de clase de frontera que logran resultados de vanguardia en tareas de lenguaje-visión, rivalizando con los modelos propietarios líderes (por ejemplo, GPT-4) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2)”.
Cómo es el nuevo modelo de IA de Nvidia
La nueva familia de modelos de inteligencia artificial de Nvidia, denominada NVLM 1.0, tiene la capacidad de interpretar imágenes y ofrecer respuestas precisas. Un ejemplo proporcionado por la compañía muestra cómo el modelo responde a una foto de Jensen Huang, su CEO, cuando un usuario pregunta quién es la persona en la imagen.

El modelo también es capaz de interpretar imágenes de apuntes escritos a mano. En una demostración, se utilizó una imagen de un texto manuscrito que contenía un conjunto de parámetros de un código, acompañado de la instrucción: “Escribe código basado en el pseudocódigo proporcionado”.
Además, se presentó cómo NVLM 1.0 era capaz de comprender memes, como uno que muestra un tigre y un gato, para luego explicárselo al usuario.
La empresa explica el caso del meme de la siguiente manera:
“Por ejemplo, nuestro modelo puede entender el humor detrás del meme “abstracto vs. papel” en el ejemplo (a) al realizar reconocimiento óptico de caracteres (OCR) para reconocer las etiquetas de texto para cada imagen y usar el razonamiento para comprender por qué yuxtaponer “lo abstracto” (etiquetado con un lince de aspecto feroz) y “el papel” (etiquetado con un gato doméstico) es gracioso”.

“El modelo NVLM-1.0-D 72B demuestra una buena capacidad de seguimiento de instrucciones. También puede generar una descripción detallada y de muy alta calidad de la imagen proporcionada”, puntualizan la compañía.
Nvidia ha subrayado que su modelo NVLM 1.0 ha sido entrenado utilizando datos seleccionados con sumo cuidado. Esto implica que se han elegido meticulosamente los datos empleados para su entrenamiento, con el fin de garantizar que sean de alta calidad y relevantes para una variedad de tareas.
Asimismo, se ha proporcionado información detallada sobre los conjuntos de datos multimodales (que incluyen texto, imágenes y otros tipos de información) utilizados tanto en la fase de preentrenamiento como en el ajuste fino supervisado, donde se optimizan las habilidades del modelo.
Los resultados del equipo de Nvidia indican que, para obtener un modelo de alta calidad, es más importante contar con conjuntos de datos variados y bien diseñados que con una cantidad masiva de datos.

Según Nvidia, la calidad y diversidad de los datos es un factor más determinante que la cantidad (escala) de datos, sin importar qué tipo de arquitectura se utilice para el modelo. Esto sugiere que modelos como NVLM 1.0 pueden lograr un rendimiento superior cuando se entrenan con datos altamente selectivos y variados.
“Nuestro NVLM-D-1.0-72B demuestra capacidades versátiles en varias tareas multimodales al utilizar conjuntamente OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad de codificación”, apuntan
Cómo acceder a la IA de Nvidia
De acuerdo con Nvidia, liderada por Jensen Huang, la compañía planea compartir los pesos del modelo y abrir el código de NVLM 1.0 para la comunidad, con el fin de impulsar la investigación en el campo de la inteligencia artificial.
Sin embargo, hasta el momento, el código de NVLM 1.0 aún no ha sido liberado. En la página oficial del proyecto, Nvidia ha señalado que esta apertura sucederá próximamente.
Últimas Noticias
Cuánto cuesta la criptomoneda ethereum este 12 de enero
Ethereum fue lanzada en 2015 por el programador Vitalik Buterin, con la intención de impulsar un instrumento para aplicaciones descentralizadas y colaborativas

Cuánto cuesta la criptomoneda bitcoin este 12 de enero
El bitcoin ha sentado las bases para la creación de muchas de las criptodivisas existentes en el mercado y ha marcado un momento crucial para las soluciones de pago digital

Así funcionan los nuevos audífonos que analizan la actividad cerebral en pacientes con pérdida auditiva
Estos dispositivos utilizan sensores avanzados para captar señales y ajustar la amplificación del sonido con el objetivo de reducir la fatiga mental asociada con esta condición, destaca la revista IEEE

CEO de Google aconseja a los trabajadores sobre cómo impulsar su desarrollo profesional
Sundar Pichai relató que en varios momentos clave de su carrera trabajó con personas que consideraba más talentosas que él

Cómo mantener tus archivos de Android ordenados y siempre a mano
La app Archivos de Google es el punto de partida para gestionar todo el contenido almacenado




