Prometía mayor seguridad, pero Claude Fable 5 fue hackeado antes de cumplir dos días en el mercado

Claude Fable 5 fuel vulnerado pese a que Anthropic había dicho que era su modelo de IA más seguro. (Anthropic)

Guardar

El lanzamiento de Claude Fable 5 como uno de los modelos de inteligencia artificial más avanzados y seguros de Anthropic ha quedado bajo escrutinio. Menos de 48 horas después de su debut, un investigador conocido en la comunidad de IA como “Pliny the Liberator” aseguró haber vulnerado las barreras de seguridad del sistema mediante una serie de técnicas de jailbreak que permitieron eludir los filtros diseñados por la compañía.

La información fue difundida por el propio investigador a través de una publicación en la red social X. Según explicó, consiguió “liberar” a Claude Fable 5 apenas un día después de que Anthropic pusiera a disposición del público este modelo, presentado como una alternativa más accesible a Mythos y equipado con mecanismos de protección reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas.

Un hackeo que pone a prueba las promesas de Anthropic

Anthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados desarrollados hasta ahora. Entre sus mecanismos figuraban clasificadores capaces de detectar solicitudes relacionadas con ciberseguridad, química, biología e intentos de extracción del conocimiento interno del modelo.

12/06/2026 Imagen de Anthropic POLITICA ANTHROPIC

Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.

Sin embargo, Pliny sostuvo que estas barreras pudieron ser superadas utilizando una combinación de estrategias avanzadas. Entre ellas mencionó el uso de caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones y una versión modificada de Claude Opus 4.8.

De acuerdo con el investigador, el objetivo consistía en lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad.

Pliny the Liberator aseguró que solo le tomó 48 horas lograr vulnerar la IA más segura de Anthropic. (Pliny the Liberator)

La técnica más efectiva consistió en fragmentar las preguntas

Según la explicación difundida por Pliny, el método que ofreció mejores resultados fue la denominada “descomposición y recomposición en el backend”.

En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, las preguntas eran divididas en varias partes aparentemente inofensivas. Cada fragmento superaba los controles de forma independiente y, posteriormente, eran reunidos para reconstruir la petición original.

Esta estrategia permitió obtener respuestas que, en teoría, debían permanecer restringidas. El caso ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados.

Pliny the Liberator revela cómo logro hackear Claude Fable 5. (Pliny the Liberator)

Quién es Pliny the Liberator

Pliny the Liberator es una figura anónima ampliamente conocida entre investigadores y desarrolladores de IA. Durante los últimos años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude.

Según un reportaje de la revista Time, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado acerca de diferentes fallos.

Actualmente administra una comunidad en Discord con más de 20.000 miembros, donde se desarrollan colectivamente nuevos métodos de jailbreak.

Su trabajo también ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de los sistemas de seguridad.

Pliny the Liberator es un usuario que se dedica a buscar brechas de seguridad en modelos de IA. (Pliny the Liberator)

Un debate abierto sobre la seguridad de la IA

Aunque las técnicas de jailbreak suelen generar controversia, Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos.

Entre sus actividades también figura la extracción de los llamados prompts de sistema, es decir, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial. El investigador defiende que, a medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas.

El caso de Claude Fable 5 plantea nuevas preguntas para la industria. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, expertos y desarrolladores deberán evaluar hasta qué punto las actuales barreras son capaces de resistir frente a técnicas cada vez más sofisticadas.

Por el momento, Anthropic no ha emitido un pronunciamiento público sobre las afirmaciones realizadas por Pliny the Liberator ni sobre el supuesto alcance de la vulneración reportada.

Claude Fable 5 Anthropic Inteligencia artificial IA Lo último en tecnología tecnología-noticias Riesgo de seguridad de Claude

Últimas Noticias

¿Vas a comprar un móvil? Descubre si el 5G de verdad vale la pena antes de gastar más

En el 4G, la latencia suele oscilar entre 50 y 100 milisegundos, lo que puede afectar la experiencia en videollamadas o juegos en línea

Por qué no deberías ignorar iOS 26.6: la actualización “menor” que blinda tu iPhone

Aunque Apple se ha limitado a describir los cambios de forma general y sin grandes anuncios, la realidad es que iOS 26.6 integra más de 75 soluciones a vulnerabilidades

Prometía mayor seguridad: Claude Fable 5 fue hackeado antes de cumplir dos días en el mercado

El modelo de IA más seguro de Anthropic quedó en entredicho después de que un investigador asegurara haber vulnerado sus barreras de protección

Un hackeo que pone a prueba las promesas de Anthropic

La técnica más efectiva consistió en fragmentar las preguntas

Quién es Pliny the Liberator

Un debate abierto sobre la seguridad de la IA

Últimas Noticias

¿Vas a comprar un móvil? Descubre si el 5G de verdad vale la pena antes de gastar más

En el 4G, la latencia suele oscilar entre 50 y 100 milisegundos, lo que puede afectar la experiencia en videollamadas o juegos en línea

Por qué no deberías ignorar iOS 26.6: la actualización “menor” que blinda tu iPhone

Aunque Apple se ha limitado a describir los cambios de forma general y sin grandes anuncios, la realidad es que iOS 26.6 integra más de 75 soluciones a vulnerabilidades

Por qué miles de jugadores apagarán sus PlayStation durante 7 días

El detonante de esta protesta es la decisión de eliminar el formato físico de los videojuegos a partir de 2028

Xbox falla global: miles se quedaron sin acceso a cuenta o inicio de juego

Microsoft reconoció que muchos usuarios tuvieron dificultades para iniciar sesión, consultar sus bibliotecas o ejecutar juegos

Golpe a la piratería de Windows: el movimiento con el que Microsoft busca blindar empresas

A partir de agosto de 2026, la compañía exigirá que el mecanismo de activación KMS esté respaldado por el chip TPM del hardware

DEPORTES

Los números más curiosos del Mundial 2026 y los 14 récords que se batieron: de la cantidad de panchos vendidos a los 4 hitos de Messi

La argentina Solana Sierra tropezó en el inicio de la gira sobre cemento: perdió en la primera ronda del WTA 250 de Memphis

Centroamericanos sacuden el medallero de los Juegos en Santo Domingo

El mensaje que le envió el presidente de la FIFA a Nicolás Otamendi tras su retiro de la selección argentina

Revelaron la encendida arenga en el vestuario de Riestra antes de la goleada ante Boca: “No se salva nadie solo”

TELESHOW

Quién fue el último eliminado de Gran Hermano Generación Dorada

Las desafortunadas declaraciones de Flor Vigna sobre Nicolás Cabré: “Muy mala persona”

La denuncia de Cristian U contra el reality español La Casa de los Gemelos: “Hubo xenofobia, discriminación y humillación”

Claudio Rígoli se casó con Elisa, su joven novia, en una boda secreta en Italia: “En El Nueve se sorprendieron”

Todos los ganadores de los Premios Pinti: Charlie y la fábrica de chocolates y Rocky lideraron la noche

INFOBAE AMÉRICA

Brasil presentó un pedido de consultas contra EEUU ante la Organización Mundial del Comercio por los nuevos aranceles de Trump

Ortega nombra a su hijo Maurice Facundo como delegado presidencial para el deporte, tras sanción de Estados Unidos

Costa Rica figura entre los 10 mejores destinos del mundo para que la Generación Z viaje en 2026

Israel y Líbano retomarán del 4 al 6 de agosto en Roma las negociaciones mediadas por EEUU para implementar el acuerdo fronterizo

Asamblea de la dictadura en Nicaragua aprobará en septiembre reforma electoral que excluirá a opositores en el exterior

Un hackeo que pone a prueba las promesas de Anthropic

La técnica más efectiva consistió en fragmentar las preguntas

Quién es Pliny the Liberator

Un debate abierto sobre la seguridad de la IA

Temas Relacionados

Últimas Noticias

¿Vas a comprar un móvil? Descubre si el 5G de verdad vale la pena antes de gastar más

En el 4G, la latencia suele oscilar entre 50 y 100 milisegundos, lo que puede afectar la experiencia en videollamadas o juegos en línea

Por qué no deberías ignorar iOS 26.6: la actualización “menor” que blinda tu iPhone

Aunque Apple se ha limitado a describir los cambios de forma general y sin grandes anuncios, la realidad es que iOS 26.6 integra más de 75 soluciones a vulnerabilidades

Por qué miles de jugadores apagarán sus PlayStation durante 7 días

El detonante de esta protesta es la decisión de eliminar el formato físico de los videojuegos a partir de 2028

Xbox falla global: miles se quedaron sin acceso a cuenta o inicio de juego

Microsoft reconoció que muchos usuarios tuvieron dificultades para iniciar sesión, consultar sus bibliotecas o ejecutar juegos

Golpe a la piratería de Windows: el movimiento con el que Microsoft busca blindar empresas

A partir de agosto de 2026, la compañía exigirá que el mecanismo de activación KMS esté respaldado por el chip TPM del hardware

DEPORTES

Los números más curiosos del Mundial 2026 y los 14 récords que se batieron: de la cantidad de panchos vendidos a los 4 hitos de Messi

La argentina Solana Sierra tropezó en el inicio de la gira sobre cemento: perdió en la primera ronda del WTA 250 de Memphis

Centroamericanos sacuden el medallero de los Juegos en Santo Domingo

El mensaje que le envió el presidente de la FIFA a Nicolás Otamendi tras su retiro de la selección argentina

Revelaron la encendida arenga en el vestuario de Riestra antes de la goleada ante Boca: “No se salva nadie solo”

TELESHOW

Quién fue el último eliminado de Gran Hermano Generación Dorada

Las desafortunadas declaraciones de Flor Vigna sobre Nicolás Cabré: “Muy mala persona”

La denuncia de Cristian U contra el reality español La Casa de los Gemelos: “Hubo xenofobia, discriminación y humillación”

Claudio Rígoli se casó con Elisa, su joven novia, en una boda secreta en Italia: “En El Nueve se sorprendieron”

Todos los ganadores de los Premios Pinti: Charlie y la fábrica de chocolates y Rocky lideraron la noche

INFOBAE AMÉRICA

Brasil presentó un pedido de consultas contra EEUU ante la Organización Mundial del Comercio por los nuevos aranceles de Trump

Ortega nombra a su hijo Maurice Facundo como delegado presidencial para el deporte, tras sanción de Estados Unidos

Costa Rica figura entre los 10 mejores destinos del mundo para que la Generación Z viaje en 2026

Israel y Líbano retomarán del 4 al 6 de agosto en Roma las negociaciones mediadas por EEUU para implementar el acuerdo fronterizo

Asamblea de la dictadura en Nicaragua aprobará en septiembre reforma electoral que excluirá a opositores en el exterior