
Casi todas las empresas tecnológicas se entrenan en el fortalecimiento de su seguridad cibernética simulando el comportamiento de hackers reales, imitando un poco la filosofía de pensar como el enemigo.
En eso consiste el red teaming, metodología utilizada en seguridad informática y gestión de riesgos que involucra la simulación de ataques cibernéticos y amenazas en sistemas, redes, organizaciones o procesos para evaluar su vulnerabilidad y resiliencia.
En el nuevo contexto que supone la inteligencia artificial, donde los chatbots tienen que estar preparados para afrontar preguntas de todo tipo, los equipos de red teaming caminan en un delgado hilo. Estos hackers rojos tienen que equilibrar la seguridad de los modelos de IA y al tiempo, mantenerlos relevantes y utilizables.
En entrevista con la revista Forbes, los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta discutieron cuáles los retos a los que se enfrentaban al crear grandes modelos de lenguaje operados con inteligencia artificial.
“Tendrás un modelo que dice no a todo y es superseguro, pero es inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedes hacer un modelo, más posibilidades tienes de aventurarte en algún área que puede acabar produciendo una respuesta insegura”, añadió Canton.
Sin embargo, debido a que la inteligencia artificial generativa se entrena utilizando un amplio conjunto de datos, la seguridad de los modelos de IA se aborda de manera diferente en comparación con las prácticas de seguridad convencionales. Daniel Fabian, quien lidera el equipo de IA Red Team de Google, se encarga de someter a pruebas de estrés productos como Bard para identificar contenido ofensivo antes de que la empresa implemente nuevas características, como la adición de idiomas.

Aparte de cuestionar un modelo de IA para inducir respuestas perjudiciales, los equipos rojos emplean estrategias adicionales, como la extracción de datos de entrenamiento que contienen información personal identificable, como nombres, direcciones y números de teléfono.
También recurren a la táctica de envenenar conjuntos de datos, alterando ciertas partes del contenido antes de usarlo para entrenar el modelo. Fabián explica que los atacantes disponen de una variedad de técnicas de ataque y cambian a la siguiente si una no surte efecto.
De ahí la existencia de una comunidad cohesionada de profesionales en el campo de la inteligencia artificial que tienden a compartir sus hallazgos. Por ejemplo, los integrantes del equipo rojo de Google han divulgado investigaciones acerca de nuevas modalidades de ataques contra modelos de IA.
Por su parte, el equipo rojo de Microsoft ha puesto a disposición del público herramientas de ataque como Counterfit, que asiste a otras compañías en la evaluación de la seguridad y los posibles riesgos de seguridad de sus algoritmos.
Al mismo tiempo, la estrategia de red teaming de Nvidia implica la realización de cursos intensivos sobre algoritmos de red teaming dirigidos a ingenieros de seguridad y empresas. Algunas de estas empresas ya confían en Nvidia para recursos informáticos como las GPU.

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia, afirma: “como motor de la IA para todo el mundo, tenemos un enorme poder multiplicador. Si podemos enseñar a otros a hacerlo, Anthropic, Google y OpenAI también lo harán correctamente”.
No obstantes, los expertos ven a la inteligencia artificial generativa como un monstruo de múltiples cabezas: según los hackers rojos de las empresas tecnológicas, a medida que los equipos rojos detectan y resuelven ciertas vulnerabilidades en el sistema, pueden surgir nuevos fallos en otras áreas. “Se necesitará un esfuerzo colectivo para abordar este problema”, sostiene Siva Kumar de Microsoft.
Últimas Noticias
El 58% de los padres en Estados Unidos está en contra de que sus hijos busquen apoyo emocional en la IA
La expansión de los chatbots y asistentes virtuales entre los adolescentes genera tensiones familiares: mientras su función educativa convence, persisten dudas sobre su acompañamiento

Adiós a la nube: Microsoft permite usar su IA y Office sin internet para evitar filtraciones
El modelo permite ejecutar servicios críticos y soluciones de IA en entornos aislados, reduciendo la dependencia de la conectividad externa
Códigos de Free Fire para hoy jueves 26 de febrero de 2026: cómo reclamar recompensas
Garena libera cada día una lista de combinaciones que permite obtener skins, diamantes y otros objetos que permiten mayor personalización en el videojuego

Alerta médica con ChatGPT Health: falla en el 52% de las emergencias y pone en riesgo al usuario
Investigadores advierten sobre lagunas de seguridad en la IA de OpenAI, particularmente al fallar en guiar a pacientes con ideación suicida hacia servicios de urgencias
Jeff Bezos asegura que ser perezoso y no trabajar provoca ansiedad: “El estrés desaparece cuando doy el primer paso”
La filosofía del empresario propone transformar la preocupación en tareas concretas y abordar los desafíos de forma inmediata


