Google lanza Gemma 4, su IA más abierta y lista para uso comercial

Este nuevo conjunto de modelos de inteligencia artificial está diseñado para programar plataformas capaces de procesar texto, imágenes y audio

Guardar
Google lanzó Gemma 4, una familia de modelos de inteligencia artificial para integrar en distintas plataformas. REUTERS/Steve Marcus//File Photo/File Photo
Google lanzó Gemma 4, una familia de modelos de inteligencia artificial para integrar en distintas plataformas. REUTERS/Steve Marcus//File Photo/File Photo

Google ha presentado Gemma 4, un conjunto de modelos de inteligencia artificial diseñados para programar plataformas que procesan tanto texto como imágenes, y que en sus versiones más compactas también admiten audio.

Esta versión incorpora modelos con pesos abiertos, disponibles en variantes previamente entrenadas y en opciones ajustadas mediante instrucciones específicas.

Gemma 4 ofrece una ventana de contexto de hasta 256.000 tokensy soporta más de 140 idiomas. Según Google, Gemma 4 es su modelo más abierto hasta la fecha y puede utilizarse con fines comerciales.

Incluye modelos de pesos abiertos en versiones entrenadas y ajustadas por instrucciones. (Google)
Incluye modelos de pesos abiertos en versiones entrenadas y ajustadas por instrucciones. (Google)

“Gemma 4 es adecuado para tareas como la generación de texto, la programación y el razonamiento. Los modelos están disponibles en cuatro tamaños distintos: E2B, E4B, 26B A4B y 31B. Sus diversos tamaños permiten implementarlos en entornos que van desde teléfonos de alta gama hasta laptops y servidores, lo que democratiza el acceso a la IA de vanguardia”, explica Google.

Cuáles son las principales características de Gemma 4

Gemma 4 incorpora avances sustanciales en capacidad y arquitectura. Todos los modelos de la familia están concebidos como razonadores altamente capaces, con modos de pensamiento configurables que permiten adaptar el proceso de razonamiento según la tarea.

Entre sus principales novedades se encuentra la multimodalidad extendida: todos los modelos pueden procesar texto e imágenes con compatibilidad de resolución y relación de aspecto variables, mientras que las versiones E2B y E4B amplían esta capacidad a video y audio de forma nativa.

Primer plano de una mano con efecto de movimiento azul brillante sobre un teclado oscuro, con una pantalla de computadora que muestra código borroso en el fondo.
Gemma 4 admite ventanas de contexto de hasta 256.000 tokens y soporta más de 140 idiomas. (Imagen Ilustrativa Infobae)

La arquitectura de Gemma 4 es diversa y eficiente, con variantes densas y modelos de combinación de expertos (MoE) en diferentes tamaños, lo que facilita una implementación escalable según las necesidades del usuario.

Los modelos más pequeños han sido optimizados para una ejecución local eficiente en laptops y dispositivos móviles, sin sacrificar rendimiento.

En cuanto a la ventana de contexto, los modelos pequeños admiten hasta 128.000 tokens, mientras que los modelos medianos llegan a 256.000 tokens, lo que permite trabajar con volúmenes de información significativamente mayores.

Además, Gemma 4 incorpora capacidades mejoradas de codificación y agente, logrando resultados destacados en pruebas de codificación y ofreciendo compatibilidad nativa con llamadas a funciones, lo que habilita agentes autónomos más sofisticados.

Varias personas colaboran en una oficina moderna usando ordenadores con pantallas de gráficos y código.
Todos los modelos están diseñados para el razonamiento avanzado, con modos de pensamiento configurables. (Imagen Ilustrativa Infobae)

Por último, Gemma 4 introduce compatibilidad nativa con instrucciones del sistema, permitiendo la definición precisa del rol de system y facilitando conversaciones más estructuradas y controlables.

Qué se puede hacer con Gemma 4

Gemma 4 permite desarrollar y ejecutar una amplia variedad de aplicaciones impulsadas por inteligencia artificial, gracias a su capacidad para procesar texto, imágenes, audio y video.

Por ejemplo, las empresas pueden utilizar Gemma 4 para crear asistentes virtuales que gestionan consultas en varios idiomas y resuelven problemas complejos mediante razonamiento avanzado. En el ámbito educativo, Gemma 4 facilita la generación automática de resúmenes de textos e interpretaciones de imágenes para estudiantes con diferentes necesidades.

(Hugging Face)
Se puede descargar y utilizar Gemma 4 desde Hugging Face y GitHub. (Hugging Face)

Además, los desarrolladores pueden aprovechar las capacidades de codificación mejorada de Gemma 4 para automatizar la escritura y revisión de código en múltiples lenguajes de programación, así como para integrar funciones personalizadas en aplicaciones empresariales.

Por su soporte para la ejecución local en dispositivos móviles y laptops, es posible implementar soluciones de reconocimiento de imágenes y procesamiento de voz directamente en el dispositivo, sin necesidad de conexión constante a la nube.

La compatibilidad nativa con instrucciones del sistema habilita la creación de agentes autónomos que pueden operar de forma más estructurada, como sistemas de atención al cliente que interpretan la intención del usuario y ejecutan tareas específicas, o herramientas de edición multimedia que procesan simultáneamente texto, imágenes y audio para producir contenido personalizado.

Cómo acceder a Gemma 4

Gemma 4 está disponible para descarga y uso en las plataformas Hugging Face y GitHub, lo que facilita el acceso a sus modelos abiertos para desarrolladores e investigadores.