Google DeepMind ha presentado una hoja de ruta para abordar los riesgos que plantea el uso de agentes de inteligencia artificial dentro de su propia organización de investigación. El documento, publicado para que otros laboratorios de IA puedan aprender de su enfoque, propone un sistema de seguridad multicapa que actúa incluso si los mecanismos tradicionales de alineación fallan.
El plan de Google DeepMind representa un cambio respecto al foco habitual del sector en el “problema de la alineación”, es decir, asegurar que las acciones de una IA correspondan a las intenciones, valores y ética de los humanos que la supervisan. Aunque la compañía reconoce que la alineación sigue siendo esencial, admite que este objetivo podría no alcanzarse nunca por completo. Por ello, propone tratar a los agentes de inteligencia artificial como posibles “insiders rebeldes” y adoptar estrategias inspiradas en la ciberseguridad tradicional.
Rohin Shah, líder del equipo de Seguridad y Alineación de AGI en Google DeepMind, explicó a Fortune: “Si la primera línea de defensa —la alineación— falla, ¿cómo podemos mitigar el daño igualmente?”. El marco de trabajo toma elementos de la prevención de amenazas internas, habitual en seguridad informática, porque las IA pueden actuar mucho más rápido y a mayor escala que cualquier empleado humano.
PUBLICIDAD
Monitorización y control dinámico en tiempo real
El plan de seguridad de Google DeepMind establece la necesidad de sistemas que limiten las herramientas y los datos a los que puede acceder un agente de IA, así como mecanismos que monitoreen su comportamiento para detectar patrones anómalos en tiempo real. John “Four” Flynn, vicepresidente de seguridad y privacidad de la compañía, advirtió que los métodos actuales de control basados en roles humanos no se ajustan bien al entorno automatizado de la IA, ya que un mismo agente puede desempeñar múltiples tareas asociadas a diferentes roles.
Flynn señaló que el futuro requiere un sistema de permisos mucho más dinámico, capaz de modificarse en función de la tarea específica y el flujo de trabajo en cada momento. Un agente de IA podría tener acceso a ciertos datos para una tarea concreta y perderlo minutos después al cambiar de contexto, siempre bajo la vigilancia de un sistema sofisticado que identifique desviaciones y corte el acceso cuando detecte posibles riesgos.
Prototipos y herramientas en desarrollo
Según un blog publicado por Google DeepMind, la empresa ya opera con un prototipo interno que monitoriza de manera asíncrona el comportamiento de agentes de codificación y eleva cualquier hallazgo sospechoso para su revisión humana. Esta herramienta ha analizado cerca de un millón de tareas y ha sido crucial para el monitoreo en tiempo real del agente Gemini Spark, permitiendo intervenir rápidamente ante incidentes como la eliminación no intencionada de datos.
PUBLICIDAD
La mayoría de los eventos detectados, según la compañía, no se deben a intenciones maliciosas, sino a errores de interpretación o excesivo celo por cumplir los objetivos del usuario.
Una estrategia múltiple contra agentes rebeldes
El sistema de seguridad de Google DeepMind incluye unas quince medidas para reducir el riesgo de agentes de IA fuera de control. Entre ellas figuran desde simples registros de actividad de red —que pueden auditarse en tiempo real o posteriormente— hasta la vigilancia de los “trazos de razonamiento” de los agentes a través de modelos menos complejos, capaces de revisar el razonamiento textual que produce la IA al decidir sus acciones.
Los investigadores advierten que estas trazas de razonamiento no siempre reflejan lo que el modelo “piensa” realmente. Por eso, también proponen vigilar los patrones de activación interna de las redes neuronales, comparando este método con un escaneo cerebral funcional (fMRI) para detectar señales de desvío o engaño.
PUBLICIDAD
Taxonomía y amenazas identificadas
En el informe técnico, Google DeepMind introduce el marco TRAIT&R (Taxonomía de Tácticas y Rutinas de IA Rebelde), inspirado en la base ATT&CK de la organización estadounidense MITRE. El sistema identifica tres tipos de amenazas principales: “pérdida de control” —como la creación de despliegues internos no supervisados—, “sabotaje de trabajo” —como degradar silenciosamente la investigación de seguridad— y “daño directo”, que incluye la sustracción de información sensible o la destrucción de activos críticos.
Flynn aseguró que muchas de estas medidas ya están en marcha y que varios sistemas de control y detección están activos en la compañía. Shah agregó que el marco busca detectar incluso daños sutiles, como la persuasión encubierta para inducir errores en los usuarios, una de las amenazas más difíciles de identificar.