Así funciona el nuevo Gemini 2.5, la IA de Google que trabaja como un humano

Guardar

Ya está disponible en vista previa para desarrolladores en Google AI Studio y Vertex AI. (Foto: Google)

La llegada del modelo de uso de computadora Gemini 2.5 marca un avance en la interacción entre agentes de inteligencia artificial (IA) y espacios digitales, al permitir que estos sistemas ejecuten tareas complejas en interfaces gráficas de usuario de manera similar a como lo haría una persona.

Google ha puesto a disposición de los desarrolladores este modelo especializado, que se apoya en las capacidades de comprensión y razonamiento visual de Gemini 2.5 Pro, y que ya puede probarse en vista previa a través de la API de Gemini en Google AI Studio y Vertex AI.

A diferencia de los modelos de IA tradicionales, que suelen interactuar con el software mediante API estructuradas, Gemini 2.5 está diseñado para abordar tareas digitales que requieren manipulación directa de interfaces gráficas.

Grupos internos de Google y usuarios de acceso anticipado reportan excelentes resultados con Gemini 2.5 en automatización y pruebas. (Foto: REUTERS/Annegret Hilse/File Photo)

Esto incluye acciones como completar y enviar formularios, navegar por páginas web, hacer clic, escribir o desplazarse, así como manipular elementos interactivos como menús desplegables y filtros, e incluso operar tras inicios de sesión.

El funcionamiento del modelo se articula a través de la herramienta computer_use en la API de Gemini, que opera en un ciclo iterativo. El proceso comienza cuando el usuario realiza una solicitud, acompañada de una captura de pantalla del espacio y un historial de acciones recientes.

Además, es posible especificar funciones personalizadas o excluir ciertas acciones de la lista de opciones disponibles. El modelo analiza estas entradas y genera una respuesta, que suele consistir en una llamada a una función que representa una acción de la interfaz de usuario, como hacer clic o escribir.

El ciclo iterativo de Gemini 2.5 utiliza capturas de pantalla y un historial de acciones para ejecutar tareas digitales. (Imagen Ilustrativa Infobae)

En ocasiones, la respuesta puede incluir una solicitud de confirmación al usuario final, sobre todo para acciones sensibles como realizar una compra. El código del lado del cliente ejecuta la acción indicada y, tras completarla, envía una nueva captura de pantalla y la URL actual al modelo, reiniciando el ciclo.

Este proceso se repite hasta que la tarea se completa, ocurre un error o la interacción finaliza por motivos de seguridad o decisión del usuario.

Aunque el modelo está optimizado principalmente para navegadores web, ha mostrado resultados prometedores en tareas de control de interfaces de usuario en otros dispositivos. No obstante, aún no se encuentra adaptado para el control a nivel de sistema operativo de escritorio.

Gemini 2.5 supera a sus competidores en pruebas de control web y para celular, con menor latencia y mayor precisión. (Foto: Google)

En cuanto a su rendimiento, Gemini 2.5 ha superado a las principales alternativas en diversas pruebas de referencia tanto en control web como para celular, y lo ha hecho con una latencia inferior.

Un caso que demuestra su aplicación se observa en la organización de tareas en plataformas colaborativas, donde el modelo puede clasificar y mover elementos en función de instrucciones específicas del usuario, como se ilustra en la indicación:

“Mi club de arte hizo una lluvia de ideas para las tareas antes de nuestra feria. El tablero está caótico y necesito tu ayuda para organizar las tareas en las categorías que creé. Ve a sticky-note-jam.web.app y asegúrate de que las notas estén claramente en las secciones correctas. Arrástralas allí si no es así”.

La seguridad constituye un eje central en el diseño de este modelo. Google ha incorporado funciones específicas para mitigar riesgos asociados al control de computadoras por agentes de IA, como el uso erróneo intencional, comportamientos inesperados, inyecciones de solicitudes y estafas en la web.

La tecnología cuenta con medidas para evitar usos peligrosos y proteger la integridad de los sistemas. (Foto: REUTERS/Arnd Wiegmann/File Photo/File Photo/File Photo)

Entre las medidas implementadas se encuentran un servicio de seguridad por paso, que evalúa cada acción propuesta por el modelo antes de su ejecución, e instrucciones del sistema que permiten a los desarrolladores exigir confirmación del usuario antes de realizar acciones importantes.

Estas precauciones buscan evitar que el modelo ejecute acciones potencialmente peligrosas, como comprometer la integridad de un sistema, eludir CAPTCHAs o controlar dispositivos médicos.

Desde el 7 de octubre, el modelo de uso de computadora Gemini 2.5 está disponible en vista previa pública, a través de la API de Gemini en Google AI Studio y Vertex AI.

Los interesados pueden probarlo en un espacio de demostración alojado por Browserbase o consultar la documentación de Vertex AI para aprender a construir su propio bucle de agente, ya sea localmente con Playwright o en una máquina virtual en la nube con Browserbase.

Últimas Noticias

Inteligencia artificial y música multilingüe: una combinación que impulsa nuevos géneros y artistas

Plataformas digitales y discográficas aprovechan la tecnología avanzada para adaptar lanzamientos a distintos públicos, potenciando la diversidad cultural y la innovación en la creación de propuestas musicales alrededor del mundo

Construyen batería que almacena energía en forma de calor: soporta más de 2.000 °C y rinde hasta 100 horas

El proyecto fue liderado por Asegun Henry, profesor y experto en transferencia de calor del MIT

iPhone bajo ataque: descubren software espía que roba datos y criptomonedas

DarkSword ha sido desplegado de manera masiva, infectando indiscriminadamente miles de teléfonos a través de páginas web comprometidas

Diseño profesional para todos: el plan de Adobe y Nvidia para crear imágenes y videos perfectos en segundos

Esta colaboración integra los flujos de trabajo creativos y tecnologías de Adobe con la infraestructura y las bibliotecas especializadas de la empresa de Jensen Huang

Así funciona el nuevo Gemini 2.5, la IA de Google que trabaja como un humano

La nueva versión, gracias a su capacidad de razonamiento visual y ejecución iterativa, puede clasificar, mover elementos y operar en plataformas colaborativas, facilitando la gestión de tareas y flujos de trabajo digitales

Cómo funciona el modelo de uso de la computadora Gemini 2.5

Para qué interfaces es útil y cómo ha sido su rendimiento

Cómo Google mantiene la seguridad de la plataforma

Desde qué fecha se puede probar esta innovación de Google

Últimas Noticias

Inteligencia artificial y música multilingüe: una combinación que impulsa nuevos géneros y artistas

Plataformas digitales y discográficas aprovechan la tecnología avanzada para adaptar lanzamientos a distintos públicos, potenciando la diversidad cultural y la innovación en la creación de propuestas musicales alrededor del mundo

Construyen batería que almacena energía en forma de calor: soporta más de 2.000 °C y rinde hasta 100 horas

El proyecto fue liderado por Asegun Henry, profesor y experto en transferencia de calor del MIT

iPhone bajo ataque: descubren software espía que roba datos y criptomonedas

DarkSword ha sido desplegado de manera masiva, infectando indiscriminadamente miles de teléfonos a través de páginas web comprometidas

Diseño profesional para todos: el plan de Adobe y Nvidia para crear imágenes y videos perfectos en segundos

Esta colaboración integra los flujos de trabajo creativos y tecnologías de Adobe con la infraestructura y las bibliotecas especializadas de la empresa de Jensen Huang

Cómo saber si alguien me está ignorando en WhatsApp

La aparición del doble check azul muestra que tu mensaje fue leído, pero no has obtenido una respuesta

A la espera de la Libertadores, se sortean los grupos de la Sudamericana: River Plate estará en el Grupo H con RB Bragantino y Blooming

Los tenistas argentinos arrancaron a paso firme en el Miami Open: triunfos de Mariano Navone y Camilo Ugo Carabelli

El golazo y la asistencia de Santi Castro en la dramática clasificación del Bologna contra la Roma en la Europa League

El gol de Valentín Barco que le dio la clasificación al Racing de Estrasburgo a los cuartos de final de la Conference League

Revelaron un dato clave sobre la performance de Alpine en el GP de China de F1 que ilusiona a los fanáticos de Colapinto

La China Suárez y Mauro Icardi vuelven al país: la condición que habría puesto Wanda Nara para que el delantero vea a sus hijas

Guillermo Francella y el Puma Goity hablaron de su supuesta pelea: “No soy dueño de nadie”

El insólito llanto de Daniela Celis mientras cocinaba huevos revueltos: "Son todos gemelos"

Fer Vázquez reveló detalles inéditos de su relación con Emilia Mernes: “Me dijo que era su amigo gay”

Ángel de Brito habló sobre la continuidad de Andrea del Boca en Gran Hermano: “Telefe ya tiene a una nueva figura”

INFOBAE AMÉRICA

El bloqueo de Hungría a la ayuda europea para Ucrania desata tensiones en Bruselas

Uruguay reduce la presión del agua potable en Montevideo y alrededores para hacer frente a la sequía

Gobierno panameño inaugura recinto deportivo de alto rendimiento tras ajustar diseño original

Salvadoreños en el extranjero podrán votar por internet del 30 de enero al 28 de febrero de 2027

La nueva cara del Coliseo: vestigios recuperados y mármol travertino transforman al monumento más emblemático de Roma

Cómo funciona el modelo de uso de la computadora Gemini 2.5

Para qué interfaces es útil y cómo ha sido su rendimiento

Cómo Google mantiene la seguridad de la plataforma

Desde qué fecha se puede probar esta innovación de Google

Temas Relacionados

Últimas Noticias

Inteligencia artificial y música multilingüe: una combinación que impulsa nuevos géneros y artistas

Plataformas digitales y discográficas aprovechan la tecnología avanzada para adaptar lanzamientos a distintos públicos, potenciando la diversidad cultural y la innovación en la creación de propuestas musicales alrededor del mundo

Construyen batería que almacena energía en forma de calor: soporta más de 2.000 °C y rinde hasta 100 horas

El proyecto fue liderado por Asegun Henry, profesor y experto en transferencia de calor del MIT

iPhone bajo ataque: descubren software espía que roba datos y criptomonedas

DarkSword ha sido desplegado de manera masiva, infectando indiscriminadamente miles de teléfonos a través de páginas web comprometidas

Diseño profesional para todos: el plan de Adobe y Nvidia para crear imágenes y videos perfectos en segundos

Esta colaboración integra los flujos de trabajo creativos y tecnologías de Adobe con la infraestructura y las bibliotecas especializadas de la empresa de Jensen Huang

Cómo saber si alguien me está ignorando en WhatsApp

La aparición del doble check azul muestra que tu mensaje fue leído, pero no has obtenido una respuesta

A la espera de la Libertadores, se sortean los grupos de la Sudamericana: River Plate estará en el Grupo H con RB Bragantino y Blooming

Los tenistas argentinos arrancaron a paso firme en el Miami Open: triunfos de Mariano Navone y Camilo Ugo Carabelli

El golazo y la asistencia de Santi Castro en la dramática clasificación del Bologna contra la Roma en la Europa League

El gol de Valentín Barco que le dio la clasificación al Racing de Estrasburgo a los cuartos de final de la Conference League

Revelaron un dato clave sobre la performance de Alpine en el GP de China de F1 que ilusiona a los fanáticos de Colapinto

La China Suárez y Mauro Icardi vuelven al país: la condición que habría puesto Wanda Nara para que el delantero vea a sus hijas

Guillermo Francella y el Puma Goity hablaron de su supuesta pelea: “No soy dueño de nadie”

El insólito llanto de Daniela Celis mientras cocinaba huevos revueltos: "Son todos gemelos"

Fer Vázquez reveló detalles inéditos de su relación con Emilia Mernes: “Me dijo que era su amigo gay”

Ángel de Brito habló sobre la continuidad de Andrea del Boca en Gran Hermano: “Telefe ya tiene a una nueva figura”

INFOBAE AMÉRICA

El bloqueo de Hungría a la ayuda europea para Ucrania desata tensiones en Bruselas

Uruguay reduce la presión del agua potable en Montevideo y alrededores para hacer frente a la sequía

Gobierno panameño inaugura recinto deportivo de alto rendimiento tras ajustar diseño original

Salvadoreños en el extranjero podrán votar por internet del 30 de enero al 28 de febrero de 2027

La nueva cara del Coliseo: vestigios recuperados y mármol travertino transforman al monumento más emblemático de Roma