
Casi todas las empresas tecnológicas se entrenan en el fortalecimiento de su seguridad cibernética simulando el comportamiento de hackers reales, imitando un poco la filosofía de pensar como el enemigo.
En eso consiste el red teaming, metodología utilizada en seguridad informática y gestión de riesgos que involucra la simulación de ataques cibernéticos y amenazas en sistemas, redes, organizaciones o procesos para evaluar su vulnerabilidad y resiliencia.
En el nuevo contexto que supone la inteligencia artificial, donde los chatbots tienen que estar preparados para afrontar preguntas de todo tipo, los equipos de red teaming caminan en un delgado hilo. Estos hackers rojos tienen que equilibrar la seguridad de los modelos de IA y al tiempo, mantenerlos relevantes y utilizables.
En entrevista con la revista Forbes, los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta discutieron cuáles los retos a los que se enfrentaban al crear grandes modelos de lenguaje operados con inteligencia artificial.
“Tendrás un modelo que dice no a todo y es superseguro, pero es inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedes hacer un modelo, más posibilidades tienes de aventurarte en algún área que puede acabar produciendo una respuesta insegura”, añadió Canton.
Sin embargo, debido a que la inteligencia artificial generativa se entrena utilizando un amplio conjunto de datos, la seguridad de los modelos de IA se aborda de manera diferente en comparación con las prácticas de seguridad convencionales. Daniel Fabian, quien lidera el equipo de IA Red Team de Google, se encarga de someter a pruebas de estrés productos como Bard para identificar contenido ofensivo antes de que la empresa implemente nuevas características, como la adición de idiomas.

Aparte de cuestionar un modelo de IA para inducir respuestas perjudiciales, los equipos rojos emplean estrategias adicionales, como la extracción de datos de entrenamiento que contienen información personal identificable, como nombres, direcciones y números de teléfono.
También recurren a la táctica de envenenar conjuntos de datos, alterando ciertas partes del contenido antes de usarlo para entrenar el modelo. Fabián explica que los atacantes disponen de una variedad de técnicas de ataque y cambian a la siguiente si una no surte efecto.
De ahí la existencia de una comunidad cohesionada de profesionales en el campo de la inteligencia artificial que tienden a compartir sus hallazgos. Por ejemplo, los integrantes del equipo rojo de Google han divulgado investigaciones acerca de nuevas modalidades de ataques contra modelos de IA.
Por su parte, el equipo rojo de Microsoft ha puesto a disposición del público herramientas de ataque como Counterfit, que asiste a otras compañías en la evaluación de la seguridad y los posibles riesgos de seguridad de sus algoritmos.
Al mismo tiempo, la estrategia de red teaming de Nvidia implica la realización de cursos intensivos sobre algoritmos de red teaming dirigidos a ingenieros de seguridad y empresas. Algunas de estas empresas ya confían en Nvidia para recursos informáticos como las GPU.

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia, afirma: “como motor de la IA para todo el mundo, tenemos un enorme poder multiplicador. Si podemos enseñar a otros a hacerlo, Anthropic, Google y OpenAI también lo harán correctamente”.
No obstantes, los expertos ven a la inteligencia artificial generativa como un monstruo de múltiples cabezas: según los hackers rojos de las empresas tecnológicas, a medida que los equipos rojos detectan y resuelven ciertas vulnerabilidades en el sistema, pueden surgir nuevos fallos en otras áreas. “Se necesitará un esfuerzo colectivo para abordar este problema”, sostiene Siva Kumar de Microsoft.
Últimas Noticias
La inteligencia artificial ya cambia el juego de los ciberataques
El auge de fraudes automatizados y deepfakes obliga a repensar la vigilancia tecnológica y aumenta los desafíos para usuarios y empresas

Guía segura 2026 para conectar el celular a un red WiFi sin saber la contraseña
Solo necesitas disponer de otro dispositivo, como un teléfono o una computadora, que ya esté conectado a ese internet

Modo otoño en WhatsApp: cómo activarlo para personalizar la app
Con Meta AI puedes crear fondos de chat personalizados y configurar notificaciones con sonidos de hojas secas

Estos son los cursos online de Google gratis que dan certificado: guía para inscribirse en marzo 2026
Los usuarios pueden acceder a cursos en áreas como desarrollo de aplicaciones móviles, cloud computing y productividad personal
Nintendo: esta es la lista completa de juegos en descuento y cómo conseguirlos
Algunos de los títulos que se encuentran en rebaja son Cozy Grove, NieR: Automata The End of YoRHa Edition, HARVESTELLA, entre otros



