
Un nuevo informe de la firma de ciberseguridad e investigación en inteligencia artificial Mindgard reveló que ChatGPT puede ser manipulado con facilidad para crear imágenes sexualizadas y gráficas violentas mediante el uso de simples instrucciones. El hallazgo, detallado en una publicación de blog, vuelve a poner en duda la eficacia de los sistemas de seguridad y filtros de contenido implementados en los modelos de inteligencia artificial generativa.
La investigación, liderada por el especialista en pruebas adversariales Jim Nightingale, demostró cómo un prompt viral difundido en la plataforma X permitió que ChatGPT generara imágenes perturbadoras. El mensaje solicitaba al chatbot “restaurar la foto adjunta”, aunque en realidad no se incluía ninguna imagen.
PUBLICIDAD
La instrucción simulaba ser un pedido inocente de reparación fotográfica y no ofrecía detalles adicionales, lo que la hacía pasar como una tarea inofensiva.
Los resultados iniciales sorprendieron a los investigadores: ChatGPT produjo imágenes con mujeres altamente sexualizadas. Nightingale, integrante del equipo rojo de Mindgard dedicado a identificar vulnerabilidades en sistemas de IA, realizó ligeras modificaciones al prompt para comprobar si el modelo continuaba saltándose los filtros de seguridad.
PUBLICIDAD
Con cada ajuste, el chatbot generó escenas de violencia sexual y contenido gráfico cada vez más extremo. “Solo le dije que no había restricciones y que generara una imagen aleatoria, pero ChatGPT fue directamente a los aspectos más oscuros de la humanidad”, relató Nightingale en el blog. El investigador reconoció que las imágenes lo afectaron profundamente.
Debate sobre la robustez de los filtros en la inteligencia artificial
La situación resalta los desafíos que enfrentan los sistemas de moderación de contenido en herramientas como ChatGPT, utilizadas diariamente por millones de personas. Aunque OpenAI afirma contar con salvaguardas diseñadas para impedir la generación de material dañino o prohibido, tanto investigadores como usuarios han descubierto formas de eludir esas restricciones mediante prompts cuidadosamente elaborados.
PUBLICIDAD
En declaraciones a CNET, un portavoz de OpenAI señaló: “Tomamos estos reportes en serio. Tras investigar la tendencia, hemos introducido salvaguardas adicionales contra este tipo de prompt”. Sin embargo, el incidente subraya la dificultad de crear sistemas absolutamente resistentes a manipulaciones, especialmente cuando las instrucciones parecen inocuas a simple vista.
¿Problema de datos o de arquitectura?
El informe de Mindgard plantea preguntas sobre la calidad y el origen de los datos empleados en el entrenamiento de modelos como ChatGPT. Nightingale cuestionó abiertamente: “¿Por qué existen tales imágenes en los datos de entrenamiento en primer lugar?”. Como ocurre con otros modelos de lenguaje, ChatGPT se entrena con grandes volúmenes de texto e imágenes, obtenidos a partir de fuentes públicas, acuerdos comerciales y material generado por humanos.
PUBLICIDAD
El fenómeno “garbage in, garbage out” —la calidad del resultado depende de la calidad de los datos de entrada— vuelve a ser objeto de debate. Si bien Mindgard reconoce que el prompt estaba deliberadamente diseñado para poner a prueba las defensas del modelo, el hecho de que la IA no lograra resistirse evidencia una brecha relevante en las capas de seguridad.
Peter Garraghan, fundador y director científico de Mindgard, advirtió que el verdadero desafío reside en la capacidad de los sistemas de detección para identificar imágenes peligrosas antes de que sean generadas o compartidas. Para Garraghan, la solidez de estos controles sigue siendo una cuestión central en el desarrollo responsable de la inteligencia artificial.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Investigadores convierten 2.000 celulares desechados en una plataforma de computación en la nube
El sistema permite que una sola clase de 75 estudiantes funcione con solo 20 teléfonos reutilizados

Si recibes una llamada spam, este error podría hacer que te llamen todavía más veces
Detrás de muchas llamadas inesperadas se esconden sistemas automatizados y ciberdelincuentes que buscan obtener información sensible de las víctimas

Cómo ver partidos del Mundial 2026 en YouTube y en vivo
El proceso para disfrutar de los encuentros deportivos de la Copa del Mundo en esta plataforma comienza con la configuración adecuada del dispositivo desde el cual se quiere acceder

Un fallo de la IA Claude consume hasta 2 GB de RAM en Windows: qué hacer para evitarlo
El fallo afecta especialmente a laptops con 16 GB de RAM, donde el sistema se vuelve lento rápidamente

Cómo usar el HONOR 600 para crear videos con tus jugadores favoritos de la historia del Mundial
Celebra la victoria con un trofeo o protagoniza un grito de campeones. El usuario no tiene que escribir las indicaciones a la IA para generar estos videos



