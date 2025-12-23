Tecno

OpenAI admite que su navegador de ChatGPT no está 100% protegido de ciberataques

La preocupación por el acceso excesivo y los dilemas éticos en la automatización crece entre profesionales del sector

ChatGPT Atlas enfrenta vulnerabilidades que
ChatGPT Atlas enfrenta vulnerabilidades que permiten manipular su comportamiento mediante instrucciones ocultas. (Reuters)

OpenAI ha reconocido que su navegador de inteligencia artificial ChatGPT Atlas sigue siendo vulnerable a ciberataques del tipo inyección de instrucciones, un problema que la propia compañía admite que no podrá eliminar completamente. A pesar de los refuerzos implementados en la seguridad de Atlas, la empresa sostiene que estos ataques, capaces de manipular agentes de IA mediante órdenes ocultas en correos electrónicos o páginas web, representan un reto persistente en la seguridad en inteligencia artificial.

La compañía equipara la inyección de instrucciones con fraudes y la manipulación social frecuentes en internet, y advierte: “Es poco probable que este problema se pueda resolver algún día de manera total”. OpenAI reconoce que el “modo agente” en ChatGPT Atlas amplía de manera significativa la superficie de ataque, una preocupación que no es exclusiva de la empresa.

El Centro Nacional de Ciberseguridad del Reino Unido también ha indicado que los ataques de inyección de instrucciones probablemente “nunca podrán mitigarse por completo” en aplicaciones de IA generativa, por lo que recomienda a los profesionales de ciberseguridad enfocarse en reducir el riesgo y el impacto, más que en eliminar el problema.

OpenAI advierte que la inyección
OpenAI advierte que la inyección de instrucciones es un problema persistente y equiparable a fraudes en internet. (Reuters)

La inyección de instrucciones consiste en diseñar frases o fragmentos maliciosos que, al ser procesados por un agente de IA, logran modificar su comportamiento. Investigadores y empresas como Brave han demostrado que unas pocas palabras integradas en documentos o correos electrónicos pueden hacer que navegadores como Atlas, o sistemas similares como Comet de Perplexity, ejecuten acciones no previstas.

OpenAI presentó ejemplos donde un mensaje malicioso en la bandeja de entrada llevó al agente a enviar una renuncia, en lugar de generar una respuesta automática de ausencia. Tras una reciente actualización, el sistema pudo alertar a la persona ante este intento, explicó la compañía.

Para responder a este desafío, OpenAI ha implementado un ciclo proactivo de defensa ágil, orientado a detectar nuevas tácticas de ataque antes de que sean explotadas en escenarios reales. El núcleo de esta estrategia es un “atacante automático”, una inteligencia artificial entrenada mediante aprendizaje por refuerzo para asumir el rol de un hacker interno.

El modo agente de Atlas
El modo agente de Atlas amplía la superficie de ataque y preocupa a expertos en ciberseguridad. (Reuters)

Este bot ejecuta simulaciones de ataques en un entorno controlado, analiza las respuestas del sistema y ajusta sus tácticas en cada prueba, lo que permite identificar y corregir debilidades frente a ciberataques. Esta metodología, empleada también por empresas como Google y Anthropic, busca multiplicar los escenarios de prueba y acelerar los ciclos de actualización para robustecer las defensas de Atlas.

A pesar de los avances presentados, OpenAI no ha ofrecido datos que reflejen una disminución comprobable en la cantidad de ataques exitosos tras sus últimas mejoras de seguridad. Sí afirmó, a través de un portavoz, que desde antes del lanzamiento de Atlas colabora con equipos externos para fortalecer la protección ante inyecciones de instrucciones.

Expertos externos, como Rami McCarthy, investigador principal en la firma de ciberseguridad Wiz, consideran que el aprendizaje por refuerzo implementado por OpenAI es útil para adaptarse de manera constante al comportamiento de los atacantes, aunque resalta que esta es solo una parte de la solución.

OpenAI utiliza inteligencia artificial para
OpenAI utiliza inteligencia artificial para simular ataques y reforzar la protección de Atlas frente a nuevas amenazas. (OpenAI)

McCarthy puntualiza que el riesgo en estos sistemas se determina al multiplicar la autonomía por el nivel de acceso otorgado, y advierte que los navegadores de agentes de IA se encuentran en una posición compleja al combinar autonomía intermedia con acceso muy elevado a información sensible. El especialista remarca la importancia de restringir el acceso a cuentas abiertas y exigir la revisión manual de cualquier solicitud de confirmación por parte de las personas usuarias, medidas que OpenAI también contempla entre sus recomendaciones.

OpenAI aconseja evitar conferir al agente acceso general a la bandeja de entrada y prefiere el uso de instrucciones concretas en lugar de autorizar acciones abiertas, además de establecer confirmaciones obligatorias antes de operaciones delicadas como envíos de mensajes o pagos. Según la compañía, permitir un margen de actuación demasiado amplio facilita la manipulación mediante contenidos ocultos o maliciosos, incluso si existen medidas de seguridad implementadas.

Sobre la relación entre el valor práctico de estos navegadores y los riesgos, McCarthy señala que, por ahora, la utilidad que aportan herramientas como Atlas no compensa el riesgo inherente vinculado a su acceso a datos sensibles. Este equilibrio podría modificarse en el futuro conforme la tecnología progrese, aunque actualmente las compensaciones todavía representan un dilema real.+

