
Google planea presentar un agente impulsado por su modelo de Inteligencia Artificial (IA) Gemini que pueda administrar un navegador web para ayudar a los usuarios a ejecutar automáticamente tareas cotidianas, como investigar, comprar o reservar un vuelo.
Google trabaja en lo que recibe el nombre en clave 'Project Jarvis' (Proyecto Jarvis), cuya vista previa estará disponible a partir del próximo diciembre, según ha conocido recientemente The Information y recogido Engadget.
Este agente, que es capaz de controlar ordenadores, "responde a los comandos de un usuarios tomando la referencia de capturas de pantalla de lo que aparece en ella e interpretando estas imágenes antes de llevar a cabo acciones, como hacer clic en un botón o escribir en un campo de texto".
Jarvis está diseñado para funcionar en navegadores web y, más concretamente, en el que desarrolla la propia Google, Chrome, a fin de que pueda ayudar a los usuarios con tareas coticianas, como buscar en internet, hacer compras 'online' o reservar billetes de avión.
Para ello, Jarvis utilizará las capacidades de Gemini, que próximamente se actualizará con una versión más avanzada, Gemini 2.0, un cambio que también se espera que se anuncie en diciembre, tal y como ha podido conocer The Verge.
Anthropic dio a conocer hace unos días una iniciativa similar a la de Google, con su modelo de IA Claude 3.5 Sonnet, que ha mejorado su rendimiento en programación y en uso de herramientas de agente, que tiene la capacidad de utilizar un ordenador de la misma forma en que lo hace una persona.
Esto significa que ha enseñado a Claude una serie de habilidades informáticas y programas de 'software' diseñados para personas, con el objetivo de que el modelo pueda mover el cursor, hacer clic en botones o escribir texto.
Proyecto Jarvis también comparte similitudes con los últimos avances de Microsoft, que adelantó a principios de este mes que su asistente de IA, Copilot, había adquirido nuevas capacidades y que podía ver y razonar lo que se muestra en pantalla o hablar de forma natural con los usuarios mediante el modo conversacional Copilot Voice.
También lanzó la plataforma Copilot Labs, que permite probar funciones experimentales aún en desarrollo y que cuenta con la función Copilot Vision, desarrollada para ofrecer "una forma completamente nueva de interaccionar con un ordenador" y que es capaz de ver lo que hay en pantalla e interactuar con este contenido.
Últimas Noticias
La Policía y el Ejército de Israel detienen a cinco israelíes en la ola de ataques colonos en Cisjordania

Arbeloa: "Mi mayor objetivo es ser injusto con el mayor número de jugadores posible"
A pesar de la victoria ante el Atlético, el técnico del conjunto blanco subrayó la competencia interna en su plantilla y resaltó la evolución y el compromiso de figuras como Vinícius, Mbappé y Bellingham tras un duelo de alto voltaje en el Bernabéu

El Clásico del Camp Nou será el domingo 10 de mayo a las 21.00
Barça y Madrid volverán a enfrentarse en el renovado escenario del Spotify Camp Nou, choque señalado por Movistar Plus como posible momento clave del campeonato, con ambos equipos involucrados en la lucha directa por el liderazgo de LaLiga

Diego Pablo Simeone: "Merecimos un poco más"
El técnico argentino analizó la derrota del Atlético ante el Real Madrid y aseguró que el resultado no se debió al arbitraje, reconociendo que su equipo pudo hacer más tanto en defensa como en ataque para cambiar el desenlace
