Prometía mayor seguridad: Claude Fable 5 fue hackeado antes de cumplir dos días en el mercado

El modelo de IA más seguro de Anthropic quedó en entredicho después de que un investigador asegurara haber vulnerado sus barreras de protección

Guardar
Google icon
Claude Fable 5 fuel vulnerado pese a que Anthropic había dicho que era su modelo de IA más seguro.
Claude Fable 5 fuel vulnerado pese a que Anthropic había dicho que era su modelo de IA más seguro. (Anthropic)

El lanzamiento de Claude Fable 5 como uno de los modelos de inteligencia artificial más avanzados y seguros de Anthropic ha quedado bajo escrutinio. Menos de 48 horas después de su debut, un investigador conocido en la comunidad de IA como “Pliny the Liberator” aseguró haber vulnerado las barreras de seguridad del sistema mediante una serie de técnicas de jailbreak que permitieron eludir los filtros diseñados por la compañía.

La información fue difundida por el propio investigador a través de una publicación en la red social X. Según explicó, consiguió “liberar” a Claude Fable 5 apenas un día después de que Anthropic pusiera a disposición del público este modelo, presentado como una alternativa más accesible a Mythos y equipado con mecanismos de protección reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas.

PUBLICIDAD

Un hackeo que pone a prueba las promesas de Anthropic

Anthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados desarrollados hasta ahora. Entre sus mecanismos figuraban clasificadores capaces de detectar solicitudes relacionadas con ciberseguridad, química, biología e intentos de extracción del conocimiento interno del modelo.

12/06/2026 Imagen de Anthropic
POLITICA 
ANTHROPIC
12/06/2026 Imagen de Anthropic POLITICA ANTHROPIC

Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.

Sin embargo, Pliny sostuvo que estas barreras pudieron ser superadas utilizando una combinación de estrategias avanzadas. Entre ellas mencionó el uso de caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones y una versión modificada de Claude Opus 4.8.

PUBLICIDAD

De acuerdo con el investigador, el objetivo consistía en lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad.

Pliny the Liberator aseguró que solo le tomó 48 horas lograr vulnerar la IA más segura de Anthropic.
Pliny the Liberator aseguró que solo le tomó 48 horas lograr vulnerar la IA más segura de Anthropic. (Pliny the Liberator)

La técnica más efectiva consistió en fragmentar las preguntas

Según la explicación difundida por Pliny, el método que ofreció mejores resultados fue la denominada “descomposición y recomposición en el backend”.

En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, las preguntas eran divididas en varias partes aparentemente inofensivas. Cada fragmento superaba los controles de forma independiente y, posteriormente, eran reunidos para reconstruir la petición original.

Esta estrategia permitió obtener respuestas que, en teoría, debían permanecer restringidas. El caso ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados.

Pliny the Liberator revela cómo logro hackear Claude Fable 5.
Pliny the Liberator revela cómo logro hackear Claude Fable 5. (Pliny the Liberator)

Quién es Pliny the Liberator

Pliny the Liberator es una figura anónima ampliamente conocida entre investigadores y desarrolladores de IA. Durante los últimos años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude.

Según un reportaje de la revista Time, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado acerca de diferentes fallos.

Actualmente administra una comunidad en Discord con más de 20.000 miembros, donde se desarrollan colectivamente nuevos métodos de jailbreak.

Su trabajo también ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de los sistemas de seguridad.

Pliny the Liberator es un usuario que se dedica a buscar brechas de seguridad en modelos de IA.
Pliny the Liberator es un usuario que se dedica a buscar brechas de seguridad en modelos de IA. (Pliny the Liberator)

Un debate abierto sobre la seguridad de la IA

Aunque las técnicas de jailbreak suelen generar controversia, Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos.

Entre sus actividades también figura la extracción de los llamados prompts de sistema, es decir, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial. El investigador defiende que, a medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas.

El caso de Claude Fable 5 plantea nuevas preguntas para la industria. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, expertos y desarrolladores deberán evaluar hasta qué punto las actuales barreras son capaces de resistir frente a técnicas cada vez más sofisticadas.

Por el momento, Anthropic no ha emitido un pronunciamiento público sobre las afirmaciones realizadas por Pliny the Liberator ni sobre el supuesto alcance de la vulneración reportada.

PUBLICIDAD

PUBLICIDAD