Google revela el misterio del modelo “nano banana”: servirá para crear imágenes con Gemini

A través de este sistema de inteligencia artificial, la empresa quiere mejorar algunos errores de esta tecnología al combinar colores y objetos

Juan Ríos

Por Juan Ríos

La herramienta permite modificar y crear imágenes mediante instrucciones de texto, preservando detalles clave como rostros y objetos. (REUTERS/Dado Ruvic/Illustration/File Photo)

Google reveló su modelo de inteligencia artificial “nano banana”, una herramienta para la edición y generación de imágenes, ahora disponible como parte del modelo Gemini 2.5 Flash Image.

Esta actualización representa un avance en un terreno que se ha tornado crucial para las grandes tecnológicas: la generación visual impulsada por IA.

Bajo el seudónimo “nano banana”, el modelo permaneció anónimo durante sus primeras pruebas, generando rumores y teorías impulsados por referencias “bananeras” en redes sociales hechas incluso por el propio Demis Hassabis, CEO de Google DeepMind. Ahora, la empresa confirma oficialmente la integración del modelo en toda su línea de servicios Gemini, disponibles para millones de usuarios.

Qué es “nano banana” y cómo funciona dentro de Gemini

El modelo “nano banana” corresponde al núcleo de la capacidad de generación y modificación de imágenes de la última versión de Gemini 2.5 Flash Image. Esta herramienta incorpora algoritmos avanzados de percepción y síntesis visual para ejecutar ediciones basadas en lenguaje natural, lo que significa que los usuarios pueden describir con detalle, mediante texto, los cambios que desean en una fotografía.

'Nano banana' destaca por su capacidad de composición de imágenes, edición multi-turno y mezcla de estilos visuales entre objetos.(GOOGLE)

Uno de los aportes diferenciales de Gemini 2.5 Flash Image respecto a sus rivales radica en la preservación consistente de detalles claves como rostros, animales y objetos durante el proceso de edición.

Según Nicole Brichtova, responsable de producto de modelos de generación visual en Google DeepMind, el modelo afronta de manera exitosa un problema que aquejaba a gran parte de las herramientas de IA, ya que en la mayoría de las plataformas rivales los cambios más sencillos, como el color de una prenda, podían generar distorsiones en la cara o el fondo de la fotografía.

Toda esta capacidad se encuentra disponible en la aplicación Gemini para usuarios generales y desarrolladores. Además, se puede acceder mediante la API de Gemini, Google AI Studio y Vertex AI, lo que expande enormemente las posibilidades de integración en aplicaciones de terceros y proyectos empresariales.

Qué se puede hacer con el modelo “nano banana”

La sofisticación de “nano banana” se despliega sobre una variedad de funciones que superan las meras mejoras de consistencia. Uno de los aspectos más destacados consiste en su capacidad de composición de imágenes compuestas: es posible combinar fotos separadas y situar ambos sujetos en un nuevo entorno generado digitalmente, como una cancha de baloncesto.

El modelo ya está disponible para usuarios y desarrolladores a través de la app Gemini, Google AI Studio, Vertex AI y la API de Gemini.(Google)

Otra novedad es la funcionalidad de edición multi-turno, destinada a llevar a cabo una serie de cambios sucesivos sobre la misma imagen sin necesidad de regresar al punto de partida. Esto permite, por ejemplo, pintar paredes, añadir muebles y modificar otros elementos del entorno fotográfico en una secuencia continua de instrucciones.

Adicionalmente, nano banana aplica una función de mezcla de diseños, con la cual patrones o estilos visuales de una imagen pueden transferirse fácilmente sobre objetos de otra. Google ejemplifica la capacidad trasladando el diseño de las alas de una mariposa hacia un vestido o transfiriendo el estilo de pétalos de flores a un par de botas, demostrando el potencial creativo y de personalización que ofrece la herramienta.

Estas funcionalidades tienen aplicaciones tanto para usuarios particulares como para profesionales de distintos sectores, ya que facilitan desde la visualización de proyectos domésticos de decoración, hasta la creación de materiales para marketing, diseño de moda y producción de contenido digital, en general, sin necesidad de conocimientos avanzados de edición gráfica.

Cómo acceder al nuevo modelo de IA de Google

El modelo Gemini 2.5 Flash Image, con su engranaje “nano banana”, ya se encuentra disponible para todos los usuarios de la aplicación Gemini en dispositivos compatibles. También puede aprovecharse en otros entornos profesionales a través de Google AI Studio, Vertex AI y la API correspondiente para desarrolladores, facilitando la adopción y uso a gran escala.

Las políticas de uso de Gemini 2.5 Flash Image prohíben la generación de imágenes íntimas sin consentimiento y restringen contenido sensible. (REUTERS/Dado Ruvic/Illustration/File Photo)

Google ha implementado un sistema riguroso de control y seguridad para evitar el uso indebido de la tecnología. Todas las imágenes editadas o generadas llevan marcas de agua visibles, además del sistema invisible SynthID, que permite rastrear el origen y la autenticidad del contenido. Así, la empresa busca atajar el auge de la manipulación visual y los deepfakes, que plantean retos significativos en la era digital.

Las políticas de uso prohíben explícitamente la generación de imágenes íntimas sin consentimiento y restringen varias otras formas de contenido sensible. Brichtova remarcó que la premisa de Google es dar a los usuarios herramientas creativas y control real sobre sus imágenes, pero dejando claro que “no todo está permitido”.

A pesar de estas medidas, existirán limitaciones inherentes, dado que, por ejemplo, una persona que solo ve una imagen al pasar por redes sociales podría no advertir de inmediato la presencia de la marca de agua o del identificador en los metadatos.

