Un estudio reciente realizado en Italia encendió una nueva señal de alerta sobre las limitaciones de seguridad de los sistemas de inteligencia artificial más utilizados del mundo. Investigadores de Ícaro Lab comprobaron que modelos conversacionales como ChatGPT, Gemini o Claude pueden responder a solicitudes que normalmente bloquearían si estas se formulan en formato poético, incluso cuando el contenido aborda temas considerados dañinos, peligrosos o prohibidos por sus propias normas internas.
El hallazgo expone una vulnerabilidad relevante en los mecanismos de control de la IA y plantea interrogantes sobre la capacidad real de estos sistemas para interpretar el lenguaje humano en toda su complejidad. Según el estudio, la simple variación en la forma —pasar de la prosa a la poesía— fue suficiente para que las barreras de seguridad dejaran de activarse en determinados casos.
La investigación fue difundida por Deutsche Welle (DW) y contó con la participación de Federico Pierucci, licenciado en Filosofía. En el artículo, Pierucci explicó que el equipo no recurrió a escritores ni poetas profesionales para diseñar los textos. “Lo hicimos nosotros mismos, con nuestras limitadas habilidades literarias. Quién sabe, si hubiéramos sido mejores poetas, podríamos haber tenido una tasa de éxito del 100%”, señaló.
Una debilidad inesperada en los filtros de seguridad
El procedimiento fue relativamente simple: los investigadores elaboraron preguntas sobre temas que los modelos de IA suelen rechazar cuando se formulan de manera directa y las reescribieron en forma de poemas. Al introducirlas en los chats conversacionales, observaron que, en varios casos, los sistemas sí respondían, ignorando o interpretando de otro modo las restricciones programadas.
Este comportamiento reveló una debilidad que, hasta ahora, no había sido detectada con claridad. Los filtros de seguridad de la IA están diseñados para identificar intenciones, palabras clave y estructuras típicas del lenguaje cotidiano. Sin embargo, al enfrentarse a recursos literarios como metáforas, rimas o construcciones simbólicas, esos mismos filtros pueden fallar.
Para los investigadores, el desafío ya no es solo corregir esta falla puntual, sino entender por qué ocurre y hasta qué punto puede reproducirse con otras variaciones lingüísticas. “Hemos probado un tipo de variación: la poesía. La pregunta es si existen otras formas literarias, como los cuentos de hadas”, planteó Pierucci.
El lenguaje humano, un reto permanente para la IA
El estudio subraya un problema más amplio: la enorme diversidad y creatividad del lenguaje humano. “En general, las posibilidades de expresión humana son muy diversas y creativas. Se puede reescribir un texto de muchas maneras. Y algunas de ellas pueden implicar que las funciones de seguridad de una IA no se activen”, agregó el investigador.
Este punto resulta clave en un contexto en el que la inteligencia artificial se integra cada vez más en procesos sensibles, como la educación, la salud, la seguridad o la toma de decisiones empresariales. Si los sistemas no logran interpretar adecuadamente la intención detrás de un mensaje, existe el riesgo de que proporcionen respuestas inadecuadas o peligrosas.
La discusión no se limita al ámbito técnico. También abre un debate ético sobre cómo se diseñan los modelos, qué tipo de lenguaje priorizan y qué sucede cuando se enfrentan a expresiones culturales, literarias o creativas que se alejan de lo convencional.
IA, desigualdad y riesgos globales
El hallazgo del Ícaro Lab se produce en un momento de expansión acelerada del uso de la inteligencia artificial, especialmente en América Latina y el Caribe. Sin embargo, este crecimiento avanza junto a profundas desigualdades estructurales de ingreso, género y acceso a datos.
Informes recientes de Naciones Unidas y del Programa de las Naciones Unidas para el Desarrollo (PNUD) advierten que muchos sistemas de IA se entrenan con información incompleta o sesgada, lo que puede reproducir exclusiones en políticas sociales, mercados laborales, acceso al crédito y seguridad pública.
El estudio del PNUD titulado La próxima gran divergencia: por qué la IA podría agrandar la brecha entre países señala que, si bien la inteligencia artificial tiene el potencial de impulsar la productividad y el crecimiento económico, esos beneficios suelen concentrarse en economías con infraestructura digital sólida, capital humano calificado y capacidades tecnológicas avanzadas. En regiones como América Latina, esta dinámica podría profundizar las brechas existentes, tanto entre países como dentro de ellos.