Gemini 3 Flash examina de manera activa las imágenes con la nueva visión agéntica

La última actualización del sistema inteligente de Google incorpora un método innovador que permite estudiar fotografías en detalle, aplicando razonamiento visual y ejecución de código para ofrecer resultados más precisos y fundamentados en evidencia visual ante cualquier requerimiento del usuario

Guardar

En el proceso de análisis de imágenes, Gemini 3 Flash utiliza la ejecución de código Python para modificar elementos visuales, como ampliar, rotar, recortar o realizar anotaciones sobre las fotografías que examina. De acuerdo con la información publicada por Europa Press, esta función forma parte de la nueva modalidad llamada “visión agéntica", una capacidad que permite al sistema de inteligencia artificial de Google abordar el estudio de una imagen mediante ciclos de pensamiento, acción y observación, y no sólo mediante el tradicional escaneo superficial.

Según detalló Europa Press, Gemini 3 Flash representa una variante especialmente optimizada del modelo Gemini 3, con mayor velocidad y costos reducidos, enfocada en el manejo eficiente de tareas diarias y procesos de trabajo que involucran agentes de inteligencia artificial. Esta versión fue introducida por Google en diciembre, y recientemente incorporó la “visión agéntica” para superar una de las principales limitaciones de los modelos generativos al interactuar con imágenes: la tendencia a interpretar las fotografías de manera estática y superficial.

El medio europeo señaló que, con la actualización, Gemini 3 Flash implementa una estrategia mucho más activa. El sistema primero analiza la consulta del usuario y la imagen involucrada, luego define un esquema de pasos sucesivos para abordar la comprensión visual de forma más minuciosa. Antes de generar una respuesta, manipula y examina la imagen transformada, incorporando datos adicionales para proporcionar información visual fundamentada.

Europa Press explicó que este ciclo integra razonamiento visual y la generación-ejecución de código de forma conjunta, lo que permite a Gemini 3 Flash establecer evidencias visuales antes de entregar cualquier resultado al usuario. Durante este proceso, el modelo puede efectuar transformaciones sobre la imagen que incluyen distintas manipulaciones visuales mediante código Python, lo que amplía la profundidad del análisis y mejora la precisión de las conclusiones obtenidas.

Google comunicó que la incorporación de la “visión agéntica” tiene como propósito mejorar la fiabilidad y exactitud cuando el modelo responde a las preguntas del usuario sobre imágenes. En vez de limitarse a una revisión rápida, se impulsa una observación detallada y planeada, respaldada por criterios que se fundamentan en pasos observables y medibles, informó Europa Press.

Este avance responde a la preocupación recurrente en la industria respecto a posibles errores interpretativos en modelos de inteligencia artificial orientados al procesamiento visual. Google mantiene la intención de agilizar las tareas habituales de los usuarios y facilitar flujos de trabajo complejos, permitiendo que los agentes inteligentes colaboren de manera más eficaz en la generación de análisis y resultados a partir de información visual, consignó Europa Press.

La actualización de Gemini 3 Flash, según lo comunicado por la empresa y reportado por Europa Press, proyecta ampliar las capacidades de razonamiento de la inteligencia artificial tanto en la comprensión como en la producción de respuestas basadas en evidencias objetivas extraídas directamente de imágenes manipuladas y observadas mediante un enfoque iterativo y programático. Con esta modalidad, los usuarios pueden obtener resultados sustentados en análisis verificables, que dependen de procesos algorítmicos y de transformación visual desarrollados paso a paso por la propia herramienta de Google.