
La llegada del modelo de uso de computadora Gemini 2.5 marca un avance en la interacción entre agentes de inteligencia artificial (IA) y espacios digitales, al permitir que estos sistemas ejecuten tareas complejas en interfaces gráficas de usuario de manera similar a como lo haría una persona.
Google ha puesto a disposición de los desarrolladores este modelo especializado, que se apoya en las capacidades de comprensión y razonamiento visual de Gemini 2.5 Pro, y que ya puede probarse en vista previa a través de la API de Gemini en Google AI Studio y Vertex AI.
PUBLICIDAD
A diferencia de los modelos de IA tradicionales, que suelen interactuar con el software mediante API estructuradas, Gemini 2.5 está diseñado para abordar tareas digitales que requieren manipulación directa de interfaces gráficas.
Esto incluye acciones como completar y enviar formularios, navegar por páginas web, hacer clic, escribir o desplazarse, así como manipular elementos interactivos como menús desplegables y filtros, e incluso operar tras inicios de sesión.
PUBLICIDAD
Cómo funciona el modelo de uso de la computadora Gemini 2.5
El funcionamiento del modelo se articula a través de la herramienta computer_use en la API de Gemini, que opera en un ciclo iterativo. El proceso comienza cuando el usuario realiza una solicitud, acompañada de una captura de pantalla del espacio y un historial de acciones recientes.
Además, es posible especificar funciones personalizadas o excluir ciertas acciones de la lista de opciones disponibles. El modelo analiza estas entradas y genera una respuesta, que suele consistir en una llamada a una función que representa una acción de la interfaz de usuario, como hacer clic o escribir.
PUBLICIDAD

En ocasiones, la respuesta puede incluir una solicitud de confirmación al usuario final, sobre todo para acciones sensibles como realizar una compra. El código del lado del cliente ejecuta la acción indicada y, tras completarla, envía una nueva captura de pantalla y la URL actual al modelo, reiniciando el ciclo.
Este proceso se repite hasta que la tarea se completa, ocurre un error o la interacción finaliza por motivos de seguridad o decisión del usuario.
PUBLICIDAD
Para qué interfaces es útil y cómo ha sido su rendimiento
Aunque el modelo está optimizado principalmente para navegadores web, ha mostrado resultados prometedores en tareas de control de interfaces de usuario en otros dispositivos. No obstante, aún no se encuentra adaptado para el control a nivel de sistema operativo de escritorio.

En cuanto a su rendimiento, Gemini 2.5 ha superado a las principales alternativas en diversas pruebas de referencia tanto en control web como para celular, y lo ha hecho con una latencia inferior.
PUBLICIDAD
Un caso que demuestra su aplicación se observa en la organización de tareas en plataformas colaborativas, donde el modelo puede clasificar y mover elementos en función de instrucciones específicas del usuario, como se ilustra en la indicación:
“Mi club de arte hizo una lluvia de ideas para las tareas antes de nuestra feria. El tablero está caótico y necesito tu ayuda para organizar las tareas en las categorías que creé. Ve a sticky-note-jam.web.app y asegúrate de que las notas estén claramente en las secciones correctas. Arrástralas allí si no es así”.
PUBLICIDAD
Cómo Google mantiene la seguridad de la plataforma
La seguridad constituye un eje central en el diseño de este modelo. Google ha incorporado funciones específicas para mitigar riesgos asociados al control de computadoras por agentes de IA, como el uso erróneo intencional, comportamientos inesperados, inyecciones de solicitudes y estafas en la web.
Entre las medidas implementadas se encuentran un servicio de seguridad por paso, que evalúa cada acción propuesta por el modelo antes de su ejecución, e instrucciones del sistema que permiten a los desarrolladores exigir confirmación del usuario antes de realizar acciones importantes.
PUBLICIDAD
Estas precauciones buscan evitar que el modelo ejecute acciones potencialmente peligrosas, como comprometer la integridad de un sistema, eludir CAPTCHAs o controlar dispositivos médicos.
Desde qué fecha se puede probar esta innovación de Google
Desde el 7 de octubre, el modelo de uso de computadora Gemini 2.5 está disponible en vista previa pública, a través de la API de Gemini en Google AI Studio y Vertex AI.
PUBLICIDAD
Los interesados pueden probarlo en un espacio de demostración alojado por Browserbase o consultar la documentación de Vertex AI para aprender a construir su propio bucle de agente, ya sea localmente con Playwright o en una máquina virtual en la nube con Browserbase.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Cuál es el tamaño ideal de un televisor para ver los partidos de la Copa Mundial 2026
Gran parte de la decisión radica en el lugar donde vamos a ubicar la pantalla en casa

Códigos de Free Fire del 12 de mayo de 2026: consigue recompensas gratis y aprende a canjearlas
Desde diamantes hasta trajes y emotes, los códigos diarios ofrecen ventajas inmediatas y refuerzan la experiencia de juego

Apple refuerza la seguridad de sus dispositivos antiguos con nuevas actualizaciones para iOS, iPadOS y macOS
Apple mantiene el soporte para iPhone, iPad y Mac de generaciones anteriores con actualizaciones centradas en seguridad y rendimiento

Cómo ahorrar agua y luz al lavar la ropa: los mejores trucos recomendados por los fabricantes de lavadoras
Implementar funciones avanzadas, rutinas inteligentes y tecnología eficiente convierte a la lavadora en una aliada del ahorro y el bienestar ambiental en la vida diaria

La IA ya ataca errores de tus dispositivos y programas desconocidos por fabricantes: esto descubrió Google
El uso de IA para crear y automatizar malware reduce barreras técnicas, aumentando la velocidad y alcance de los ataques



