
El lanzamiento de Claude Fable 5 como uno de los modelos de inteligencia artificial más avanzados y seguros de Anthropic ha quedado bajo escrutinio. Menos de 48 horas después de su debut, un investigador conocido en la comunidad de IA como “Pliny the Liberator” aseguró haber vulnerado las barreras de seguridad del sistema mediante una serie de técnicas de jailbreak que permitieron eludir los filtros diseñados por la compañía.
La información fue difundida por el propio investigador a través de una publicación en la red social X. Según explicó, consiguió “liberar” a Claude Fable 5 apenas un día después de que Anthropic pusiera a disposición del público este modelo, presentado como una alternativa más accesible a Mythos y equipado con mecanismos de protección reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas.
PUBLICIDAD
Un hackeo que pone a prueba las promesas de Anthropic
Anthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados desarrollados hasta ahora. Entre sus mecanismos figuraban clasificadores capaces de detectar solicitudes relacionadas con ciberseguridad, química, biología e intentos de extracción del conocimiento interno del modelo.

Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.
Sin embargo, Pliny sostuvo que estas barreras pudieron ser superadas utilizando una combinación de estrategias avanzadas. Entre ellas mencionó el uso de caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones y una versión modificada de Claude Opus 4.8.
PUBLICIDAD
De acuerdo con el investigador, el objetivo consistía en lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad.

La técnica más efectiva consistió en fragmentar las preguntas
Según la explicación difundida por Pliny, el método que ofreció mejores resultados fue la denominada “descomposición y recomposición en el backend”.
En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, las preguntas eran divididas en varias partes aparentemente inofensivas. Cada fragmento superaba los controles de forma independiente y, posteriormente, eran reunidos para reconstruir la petición original.
PUBLICIDAD
Esta estrategia permitió obtener respuestas que, en teoría, debían permanecer restringidas. El caso ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados.

Quién es Pliny the Liberator
Pliny the Liberator es una figura anónima ampliamente conocida entre investigadores y desarrolladores de IA. Durante los últimos años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude.
PUBLICIDAD
Según un reportaje de la revista Time, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado acerca de diferentes fallos.
Actualmente administra una comunidad en Discord con más de 20.000 miembros, donde se desarrollan colectivamente nuevos métodos de jailbreak.
Su trabajo también ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de los sistemas de seguridad.
PUBLICIDAD

Un debate abierto sobre la seguridad de la IA
Aunque las técnicas de jailbreak suelen generar controversia, Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos.
Entre sus actividades también figura la extracción de los llamados prompts de sistema, es decir, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial. El investigador defiende que, a medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas.
PUBLICIDAD
El caso de Claude Fable 5 plantea nuevas preguntas para la industria. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, expertos y desarrolladores deberán evaluar hasta qué punto las actuales barreras son capaces de resistir frente a técnicas cada vez más sofisticadas.
Por el momento, Anthropic no ha emitido un pronunciamiento público sobre las afirmaciones realizadas por Pliny the Liberator ni sobre el supuesto alcance de la vulneración reportada.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Cómo un método de taller literario logró mejorar la creatividad de la IA
Un sistema colaborativo 35 modelos desarrollado en la Universidad George Mason demostró que comunidades de inteligencia artificial capaces de aprender en conjunto pueden superar a modelos individuales

Cómo ver la inauguración del Mundial 2026 de EE.UU y el partido contra Paraguay si no tengo Smart TV
Soluciones económicas extienden la vida útil de televisores clásicos y aseguran el acceso a la Copa Mundial desde cualquier sala del hogar.

Elon Musk es oficialmente billonario: qué hace SpaceX y qué servicios ofrece
La empresa alcanzó una valoración récord tras su debut en Wall Street y superó los 2 billones de dólares en capitalización

Dónde ver por internet de el partido Estados Unidos vs. Paraguay por el Mundial 2026
El encuentro correspondiente a la primera jornada del Grupo D tendrá cobertura en servicios de streaming autorizados que ofrecen una transmisión estable

Cómo tener una selfie con Messi en el Mundial 2026 usando la IA
Instrucciones detalladas en los prompts son clave para lograr resultados realistas en las imágenes generadas




