Gemini quiere reemplazar al mouse y al teclado: así funcionan sus nuevas herramientas para escritorio

La app de escritorio de Gemini sumará un sistema de dictado avanzado y un puntero inteligente capaz de entender lo que el usuario ve en pantalla

Guardar
Google icon
Una persona joven vista desde el hombro derecho usando una laptop con el logo de Gemini en la pantalla, rodeada de libros, cuadernos y una taza sobre un escritorio de madera.
Gemini para escritorio en macOS tendrá nuevas funciones de voz. (Imagen Ilustrativa Infobae)

Google continúa ampliando las capacidades de Gemini y prepara una actualización que podría cambiar la forma en que los usuarios interactúan con sus computadoras. La compañía trabaja en dos nuevas funciones para la aplicación de escritorio de Gemini en macOS que permitirán controlar tareas mediante la voz y mejorar la comprensión del contenido que aparece en pantalla gracias a un sistema capaz de seguir el movimiento del cursor.

Las nuevas herramientas, detectadas en versiones de prueba de Gemini Desktop para macOS, apuntan a reducir la dependencia del teclado y el mouse en determinadas tareas cotidianas. Una de ellas incorpora un sistema de dictado avanzado que permite dar instrucciones mediante comandos de voz desde cualquier ventana abierta.

PUBLICIDAD

La otra introduce una función denominada “Magic Pointer” o “Puntero mágico”, diseñada para que la inteligencia artificial identifique exactamente qué elemento está observando el usuario en la pantalla.

Gemini agregará comando de voz para su aplicación en macOS.
Gemini agregará comando de voz para su aplicación en macOS.

Estas novedades forman parte de la estrategia de Google para convertir a Gemini en un asistente cada vez más integrado dentro del sistema operativo, capaz de interactuar directamente con aplicaciones, documentos y contenidos visuales sin necesidad de cambiar constantemente entre ventanas.

PUBLICIDAD

Una función de voz para controlar aplicaciones

La primera de las herramientas descubiertas recibe el nombre de “Speak to Window” y busca simplificar la interacción con Gemini a través de comandos hablados.

Según la información revelada, el usuario podrá mantener presionada la tecla FN del teclado mientras trabaja en cualquier aplicación para activar el asistente. A partir de ese momento, será posible dictar instrucciones sin necesidad de escribirlas manualmente.

Esto permitiría solicitar tareas como redactar correos electrónicos, resumir textos, generar contenido, revisar documentos o incluso crear imágenes mediante inteligencia artificial.

La principal diferencia frente a los sistemas tradicionales de reconocimiento de voz es que Gemini podría interpretar el contexto de la ventana activa. Es decir, no solo escucharía el comando, sino que también tendría acceso a la aplicación que el usuario está utilizando en ese momento para ofrecer respuestas más precisas.

Primer plano del icono de Gemini de Google. Muestra una estrella multicolor (rojo, amarillo, verde, azul) en un fondo blanco cuadrado redondeado, sobre azul
Con una sola tecla podrás activar el asistente de voz de Gemini. (Google)

De confirmarse oficialmente, esta función acercaría la experiencia de Gemini a la de un asistente digital capaz de colaborar directamente durante el trabajo diario en el computador.

El “Puntero mágico” que sigue el cursor

La segunda novedad es quizás la más llamativa. Google está desarrollando una herramienta denominada “Magic Pointer” que permitiría a Gemini seguir los movimientos del cursor en tiempo real.

El objetivo es que la inteligencia artificial pueda identificar exactamente qué elemento está observando el usuario mientras interactúa mediante voz.

En la práctica, esto significa que Gemini podría comprender mejor el contexto visual de una página web, un documento, una imagen o una aplicación abierta.

Si el usuario rodea con el cursor una sección específica de la pantalla, el sistema podría interpretar automáticamente qué información está siendo señalada y ejecutar acciones relacionadas.

Un MacBook plateado abierto sobre un escritorio de madera muestra el logo de Gemini en su pantalla blanca. A su lado derecho, una taza blanca y un ratón.
Google busca delegar más funciones dentro de macOS a Gemini. (Imagen Ilustrativa Infobae)

Por ejemplo, Gemini podría resumir un texto seleccionado, explicar una imagen, modificar contenido o generar nueva información basada en el área resaltada.

Esta aproximación busca resolver uno de los principales desafíos de los asistentes de IA actuales: comprender con precisión a qué elemento se refiere una persona cuando da instrucciones verbales.

Google busca una interacción más natural

Las nuevas funciones reflejan una tendencia cada vez más visible en la industria tecnológica: la transición hacia interfaces donde la voz y el contexto visual tienen un papel tan importante como el teclado y el mouse.

Empresas como Google, Microsoft y Apple trabajan desde hace años en sistemas capaces de interpretar acciones realizadas en pantalla para ofrecer asistencia contextual en tiempo real.

Con Gemini, Google parece avanzar hacia un modelo en el que la inteligencia artificial pueda observar lo mismo que el usuario y actuar como una especie de asistente permanente integrado en el sistema operativo.

Mano sosteniendo un teléfono móvil con la pantalla mostrando el logo de Gemini de Google.
Google quiere que Gemini sea un asistente permanente. (Imagen Ilustrativa Infobae)

Una tercera función aún genera dudas

Además de las dos herramientas principales, se ha detectado una posible función adicional en el código de Gemini Desktop para macOS.

La característica aparece asociada a opciones relacionadas con la generación de imágenes y videos, aunque por el momento no existe información oficial sobre su funcionamiento.

Las referencias encontradas sugieren que podría estar vinculada con la conexión entre distintos dispositivos macOS que tengan instalada la aplicación Gemini Desktop.

Algunos especialistas consideran que esta herramienta podría permitir controlar de forma remota otra computadora utilizando Gemini como intermediario, aunque esta posibilidad todavía no ha sido confirmada por Google.

Mano de una persona sosteniendo un celular con el logo de Gemini de Google en la pantalla.
La idea de realizar comandos de voz en macOS para usar Gemini es que pueda ejecutar órdenes como generación de fotos o videos. (Imagen Ilustrativa Infobae)

Cuándo llegarán estas funciones

Por ahora, Google no ha anunciado una fecha oficial para el lanzamiento de estas novedades. Las herramientas fueron descubiertas en versiones preliminares de la aplicación para macOS, lo que indica que todavía se encuentran en desarrollo y podrían sufrir modificaciones antes de llegar al público.

Sin embargo, la aparición de funciones como el dictado contextual y el seguimiento inteligente del cursor muestra hacia dónde se dirige la evolución de Gemini: una inteligencia artificial cada vez más integrada en el escritorio y capaz de interactuar con el entorno digital de forma mucho más natural que los asistentes tradicionales.

PUBLICIDAD

PUBLICIDAD