Google DeepMind tiene un plan para protegerse si sus agentes de IA se descontrolan

El nuevo plan de Google DeepMind propone tratar a los agentes de IA como posibles amenazas internas dentro de las organizaciones. (Reuters)

Google DeepMind ha presentado una hoja de ruta para abordar los riesgos que plantea el uso de agentes de inteligencia artificial dentro de su propia organización de investigación. El documento, publicado para que otros laboratorios de IA puedan aprender de su enfoque, propone un sistema de seguridad multicapa que actúa incluso si los mecanismos tradicionales de alineación fallan.

El plan de Google DeepMind representa un cambio respecto al foco habitual del sector en el “problema de la alineación”, es decir, asegurar que las acciones de una IA correspondan a las intenciones, valores y ética de los humanos que la supervisan. Aunque la compañía reconoce que la alineación sigue siendo esencial, admite que este objetivo podría no alcanzarse nunca por completo. Por ello, propone tratar a los agentes de inteligencia artificial como posibles “insiders rebeldes” y adoptar estrategias inspiradas en la ciberseguridad tradicional.

Rohin Shah, líder del equipo de Seguridad y Alineación de AGI en Google DeepMind, explicó a Fortune: “Si la primera línea de defensa —la alineación— falla, ¿cómo podemos mitigar el daño igualmente?”. El marco de trabajo toma elementos de la prevención de amenazas internas, habitual en seguridad informática, porque las IA pueden actuar mucho más rápido y a mayor escala que cualquier empleado humano.

El sistema de vigilancia de DeepMind ha analizado cerca de un millón de tareas de agentes de codificación. (AP)

Monitorización y control dinámico en tiempo real

El plan de seguridad de Google DeepMind establece la necesidad de sistemas que limiten las herramientas y los datos a los que puede acceder un agente de IA, así como mecanismos que monitoreen su comportamiento para detectar patrones anómalos en tiempo real. John “Four” Flynn, vicepresidente de seguridad y privacidad de la compañía, advirtió que los métodos actuales de control basados en roles humanos no se ajustan bien al entorno automatizado de la IA, ya que un mismo agente puede desempeñar múltiples tareas asociadas a diferentes roles.

Flynn señaló que el futuro requiere un sistema de permisos mucho más dinámico, capaz de modificarse en función de la tarea específica y el flujo de trabajo en cada momento. Un agente de IA podría tener acceso a ciertos datos para una tarea concreta y perderlo minutos después al cambiar de contexto, siempre bajo la vigilancia de un sistema sofisticado que identifique desviaciones y corte el acceso cuando detecte posibles riesgos.

Prototipos y herramientas en desarrollo

Según un blog publicado por Google DeepMind, la empresa ya opera con un prototipo interno que monitoriza de manera asíncrona el comportamiento de agentes de codificación y eleva cualquier hallazgo sospechoso para su revisión humana. Esta herramienta ha analizado cerca de un millón de tareas y ha sido crucial para el monitoreo en tiempo real del agente Gemini Spark, permitiendo intervenir rápidamente ante incidentes como la eliminación no intencionada de datos.

La hoja de ruta incluye quince medidas de protección, como auditorías de red y monitoreo de razonamiento interno de la IA. (Imagen Ilustrativa Infobae)

La mayoría de los eventos detectados, según la compañía, no se deben a intenciones maliciosas, sino a errores de interpretación o excesivo celo por cumplir los objetivos del usuario.

Una estrategia múltiple contra agentes rebeldes

El sistema de seguridad de Google DeepMind incluye unas quince medidas para reducir el riesgo de agentes de IA fuera de control. Entre ellas figuran desde simples registros de actividad de red —que pueden auditarse en tiempo real o posteriormente— hasta la vigilancia de los “trazos de razonamiento” de los agentes a través de modelos menos complejos, capaces de revisar el razonamiento textual que produce la IA al decidir sus acciones.

Los investigadores advierten que estas trazas de razonamiento no siempre reflejan lo que el modelo “piensa” realmente. Por eso, también proponen vigilar los patrones de activación interna de las redes neuronales, comparando este método con un escaneo cerebral funcional (fMRI) para detectar señales de desvío o engaño.

El marco TRAIT&R de DeepMind identifica amenazas como pérdida de control, sabotaje de trabajo y daño directo por parte de agentes de IA. (Google)

Taxonomía y amenazas identificadas

En el informe técnico, Google DeepMind introduce el marco TRAIT&R (Taxonomía de Tácticas y Rutinas de IA Rebelde), inspirado en la base ATT&CK de la organización estadounidense MITRE. El sistema identifica tres tipos de amenazas principales: “pérdida de control” —como la creación de despliegues internos no supervisados—, “sabotaje de trabajo” —como degradar silenciosamente la investigación de seguridad— y “daño directo”, que incluye la sustracción de información sensible o la destrucción de activos críticos.

Flynn aseguró que muchas de estas medidas ya están en marcha y que varios sistemas de control y detección están activos en la compañía. Shah agregó que el marco busca detectar incluso daños sutiles, como la persuasión encubierta para inducir errores en los usuarios, una de las amenazas más difíciles de identificar.

Más Noticias

Youtube en Argentina: la lista de los 10 videos más populares de este sábado

La plataforma más popular de videos tiene presencia en 104 países y alrededor de cada minuto se suben a la plataforma 500 horas de contenido

Por qué cerrar las apps en segundo plano de Android no siempre es lo más recomendable

Las versiones recientes de Android priorizan mantener las aplicaciones listas para un acceso rápido y eficiente

Youtube en Colombia: la lista de los 10 videos más reproducidos de este día

En el 2006 la revista Time nombró a YouTube como el Invento del Año

Lo mejor de YouTube Chile: lista de los videos del momento

YouTube, la plataforma de videos más famosa del mundo, genera alrededor de 15 mil millones de dólares al trimestre y al día son reproducidos alrededor de 5 mil millones de clips

Lista de los 10 videos en YouTube que son tendencia en España este día

YouTube nació en el 2005 cuando tres extrabajadores de Paypal experimentaron dificultades para compartirse videos de una fiesta a la que habían asistido