
Nvidia ha presentado su nuevo modelo de inteligencia artificial, NVLM 1.0, capaz de generar código en cuestión de segundos, responder consultas de cultura general e incluso explicar memes. Este modelo tiene la habilidad de comprender imágenes, gráficos y escritura a mano.
Según la compañía, NVLM 1.0 está diseñado para competir con los modelos de OpenAI y Meta. Nvidia destacó: “Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales (LLM) de clase de frontera que logran resultados de vanguardia en tareas de lenguaje-visión, rivalizando con los modelos propietarios líderes (por ejemplo, GPT-4) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2)”.
PUBLICIDAD
Cómo es el nuevo modelo de IA de Nvidia
La nueva familia de modelos de inteligencia artificial de Nvidia, denominada NVLM 1.0, tiene la capacidad de interpretar imágenes y ofrecer respuestas precisas. Un ejemplo proporcionado por la compañía muestra cómo el modelo responde a una foto de Jensen Huang, su CEO, cuando un usuario pregunta quién es la persona en la imagen.

El modelo también es capaz de interpretar imágenes de apuntes escritos a mano. En una demostración, se utilizó una imagen de un texto manuscrito que contenía un conjunto de parámetros de un código, acompañado de la instrucción: “Escribe código basado en el pseudocódigo proporcionado”.
PUBLICIDAD
Además, se presentó cómo NVLM 1.0 era capaz de comprender memes, como uno que muestra un tigre y un gato, para luego explicárselo al usuario.
La empresa explica el caso del meme de la siguiente manera:
PUBLICIDAD
“Por ejemplo, nuestro modelo puede entender el humor detrás del meme “abstracto vs. papel” en el ejemplo (a) al realizar reconocimiento óptico de caracteres (OCR) para reconocer las etiquetas de texto para cada imagen y usar el razonamiento para comprender por qué yuxtaponer “lo abstracto” (etiquetado con un lince de aspecto feroz) y “el papel” (etiquetado con un gato doméstico) es gracioso”.

“El modelo NVLM-1.0-D 72B demuestra una buena capacidad de seguimiento de instrucciones. También puede generar una descripción detallada y de muy alta calidad de la imagen proporcionada”, puntualizan la compañía.
PUBLICIDAD
Nvidia ha subrayado que su modelo NVLM 1.0 ha sido entrenado utilizando datos seleccionados con sumo cuidado. Esto implica que se han elegido meticulosamente los datos empleados para su entrenamiento, con el fin de garantizar que sean de alta calidad y relevantes para una variedad de tareas.
Asimismo, se ha proporcionado información detallada sobre los conjuntos de datos multimodales (que incluyen texto, imágenes y otros tipos de información) utilizados tanto en la fase de preentrenamiento como en el ajuste fino supervisado, donde se optimizan las habilidades del modelo.
PUBLICIDAD
Los resultados del equipo de Nvidia indican que, para obtener un modelo de alta calidad, es más importante contar con conjuntos de datos variados y bien diseñados que con una cantidad masiva de datos.

Según Nvidia, la calidad y diversidad de los datos es un factor más determinante que la cantidad (escala) de datos, sin importar qué tipo de arquitectura se utilice para el modelo. Esto sugiere que modelos como NVLM 1.0 pueden lograr un rendimiento superior cuando se entrenan con datos altamente selectivos y variados.
PUBLICIDAD
“Nuestro NVLM-D-1.0-72B demuestra capacidades versátiles en varias tareas multimodales al utilizar conjuntamente OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad de codificación”, apuntan
Cómo acceder a la IA de Nvidia
De acuerdo con Nvidia, liderada por Jensen Huang, la compañía planea compartir los pesos del modelo y abrir el código de NVLM 1.0 para la comunidad, con el fin de impulsar la investigación en el campo de la inteligencia artificial.
PUBLICIDAD
Sin embargo, hasta el momento, el código de NVLM 1.0 aún no ha sido liberado. En la página oficial del proyecto, Nvidia ha señalado que esta apertura sucederá próximamente.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
WhatsApp integra los estados en la pestaña de chats: cómo funciona y cuándo estará disponible
La función, por ahora exclusiva en beta para Android, responde a la tendencia de consumo rápido de contenido y podría transformar la forma de interactuar con publicaciones efímera

El código secreto que permite evitar resultados creados con inteligencia artificial en Google y otros buscadores
Cada vez más usuarios utilizan filtros por fecha para encontrar información publicada antes del auge de la IA generativa

Qué pasa si tu hijo quiere ser influencer: claves para acompañar su sueño y proteger su seguridad digital
El interés por la fama digital va en aumento, pero la sobreexposición, el contacto con desconocidos y el riesgo de estafas hacen fundamental el diálogo y la supervisión

Traductor de Google cumple 20 años y estas son las cuatro palabras que más traducen
El inglés-español es la pareja más común entre las traducciones en la aplicación

El papel higiénico tiene un rival: estos dispositivos los están remplazando en 2026
Limpieza automática, menor consumo y comodidad, son razones por las que hogares optan por los inodoros inteligentes



