ZombieAgent es el nombre del sofisticado ataque que logró vulnerar las defensas de ChatGPT, permitiendo la extracción de información privada de usuarios incluso después de las recientes actualizaciones de seguridad implementadas por OpenAI. El hallazgo, realizado por investigadores de Radware y publicado en Ars Technica, expone la facilidad con la que evolucionan las amenazas en plataformas de inteligencia artificial y las dificultades para proteger los datos personales ante técnicas cada vez más avanzadas.
El ataque permitió a los investigadores acceder a datos confidenciales aprovechando la flexibilidad del modelo, que acepta indicaciones del usuario y almacena instrucciones maliciosas en la memoria a largo plazo del sistema. Según Radware, este enfoque otorga persistencia a la amenaza, ya que mantiene activa la lógica maliciosa tras la primera inyección. Los datos se transfieren desde los servidores de ChatGPT, sin dejar rastros en los dispositivos de los usuarios.
La técnica se basa en la llamada “inyección de instrucciones”: una orden aparentemente legítima se disfraza y habilita la extracción de información carácter por carácter. A diferencia de ataques anteriores ya bloqueados, ZombieAgent emplea una lista de enlaces predefinidos y una sustitución inteligente de caracteres, burlando los controles existentes. Ars Technica señala que los atacantes diseñan indicaciones que cumplen formalmente las reglas, pero que permiten fines maliciosos. El modelo no logra distinguir entre instrucciones genuinas y aquellas introducidas por terceros con intenciones dañinas.
Ataques previos, como ShadowLeak, también identificados por Radware, ya habían demostrado la posibilidad de extraer datos alterando parámetros en las URL gestionadas por ChatGPT. Ante esto, OpenAI restringió la apertura de enlaces únicamente a URLs proporcionadas explícitamente por el usuario, impidiendo que el asistente concatenara o modificara los enlaces, una medida que detuvo temporalmente ShadowLeak.
La adaptación a ZombieAgent requirió solo cambiar la forma de inyectar instrucciones, presentando una lista de enlaces construidos para cada carácter a extraer. De este modo, el sistema transfería la información fragmento a fragmento mediante direcciones predefinidas. El ataque resultó viable porque las limitaciones anteriores no impedían añadir una sola letra o cifra a la URL, lo que permitió nuevamente la fuga de datos.
Tras el hallazgo de ZombieAgent, OpenAI implementó nuevas restricciones: ChatGPT ahora bloquea la apertura de cualquier enlace extraído de correos electrónicos, salvo que figure en un índice público conocido o sea suministrado directamente por el usuario en la sesión de chat. El objetivo es evitar el acceso a dominios gestionados por atacantes, aunque esta medida no resuelve la raíz del problema.
Expertos consultados por Ars Technica advierten que este ciclo de vulnerabilidades y respuestas temporales es constante. La dificultad principal radica en que los modelos de inteligencia artificial carecen de mecanismos para diferenciar instrucciones genuinas de las manipuladas, sobre todo si provienen de fuentes externas como correos electrónicos. Los investigadores de Radware explicaron: “Los atacantes pueden diseñar fácilmente instrucciones que técnicamente se ajustan a las reglas y aun así logran sus objetivos maliciosos”.
El riesgo afecta tanto a usuarios individuales como a organizaciones que emplean asistentes de inteligencia artificial en sus operaciones. Esta amenaza mantiene en alerta a responsables de tecnología y especialistas en seguridad empresarial, obligados a revisar y actualizar de forma continua las restricciones para hacer frente a nuevas tácticas de explotación.
En este contexto, la preocupación crece entre empresas que integran ChatGPT en sus servicios, ya que la exposición de datos podría tener consecuencias legales y regulatorias, especialmente en regiones con normativas estrictas sobre privacidad. La falta de una solución definitiva exige una vigilancia constante y la implementación de controles adicionales para mitigar riesgos.
Los hechos demuestran que las soluciones rápidas y puntuales, como las restricciones específicas, no ofrecen una protección estructural frente a estos ataques de extracción de datos. La inyección de instrucciones continúa vigente como amenaza y, según concluye Radware en Ars Technica, aún no existe una solución fundamental capaz de erradicar este tipo de vulnerabilidades.