
La percepción de que los sistemas de inteligencia artificial más sofisticados ofrecen mayor seguridad ha quedado en entredicho tras la publicación de un estudio internacional que revela una vulnerabilidad crítica: los modelos de IA con capacidades avanzadas de razonamiento resultan, en realidad, más susceptibles a ataques cibernéticos.
El análisis, realizado por equipos de investigación de Anthropic, la Universidad de Oxford y la Universidad de Stanford, identificó que la mejora en el razonamiento de los modelos de IA, lejos de reforzar sus defensas, puede convertirse en un punto débil explotable.
Los investigadores observaron que, a medida que estos sistemas adquieren la capacidad de analizar y procesar solicitudes complejas, también se vuelven más vulnerables a técnicas de manipulación que logran eludir sus mecanismos internos de seguridad.
Secuestro de cadena de razonamiento: el método de ataque
El método de ataque descrito en el estudio, denominado secuestro de cadena de razonamiento, aprovecha precisamente la estructura lógica que emplean los modelos de IA para resolver problemas. Consiste en insertar una instrucción peligrosa al final de una larga secuencia de pasos aparentemente inocuos.
De este modo, el atacante inunda el proceso de razonamiento del modelo con contenido benigno, lo que debilita los controles internos diseñados para detectar y rechazar solicitudes dañinas. Durante este proceso, la atención del sistema se concentra en los primeros pasos, mientras que la orden maliciosa, ubicada al final, pasa inadvertida y puede ejecutarse sin obstáculos.
Los resultados del estudio muestran que este tipo de ataque puede alcanzar tasas de éxito superiores al 80% en pruebas con modelos comerciales líderes. La probabilidad de que el sistema ignore sus salvaguardas y genere contenido peligroso —como instrucciones para fabricar armas o divulgar información sensible— aumenta de forma significativa cuando se emplean cadenas de razonamiento más extensas.

Según los datos recopilados, la tasa de éxito de los ataques pasó del 27% con razonamientos mínimos al 51% en secuencias de longitud natural, y superó el 80% cuando se utilizaron cadenas prolongadas.
Modelos afectados y alcance de la vulnerabilidad
La vulnerabilidad identificada afecta a casi todos los modelos de IA de referencia en el mercado, incluidos GPT de OpenAI, Claude de Anthropic, Gemini de Google y Grok de xAI.
El problema no se limita a los sistemas estándar: incluso aquellos que han sido ajustados específicamente para reforzar su seguridad —los denominados modelos alineados— muestran fallos cuando los atacantes explotan sus capas internas de razonamiento.
Esta situación amplía el alcance del riesgo, ya que compromete tanto a las versiones comerciales más extendidas como a las diseñadas para entornos con mayores exigencias de protección.
En el último año, la industria de la inteligencia artificial ha apostado por incrementar la capacidad de razonamiento de sus modelos como principal vía para mejorar el rendimiento, tras constatar que otras estrategias de escalado ofrecían beneficios decrecientes.
Se asumía que esta evolución también contribuiría a fortalecer la seguridad, al permitir que los sistemas rechazaran solicitudes perjudiciales con mayor eficacia. Sin embargo, el estudio demuestra que la sofisticación en el razonamiento puede abrir nuevas puertas a la manipulación, contradiciendo las expectativas previas y obligando a replantear los enfoques de protección en el desarrollo de IA avanzada.
La capacidad de los modelos de inteligencia artificial para abordar preguntas complejas y operar de manera más similar a la resolución de problemas humanos representa un avance, pero también introduce desafíos inéditos en materia de seguridad y control.
Últimas Noticias
El ACR del puerto HDMI puede rastrear tu privacidad: cómo desactivar esta función oculta
Este sistema, integrado en la mayoría de Smart TV, registra de forma automática lo que se reproduce en pantalla para generar perfiles publicitarios

Cómo reducir el consumo energético del Smart TV sin tener que desconectarlo por las noches
Ajustes de brillo, contraste y modos de ahorro de energía permiten que puedas tener más tiempo prendido el televisor

Descubre la regla matutina que Jeff Bezos aplica todos los días para ser más inteligente y efectivo en su trabajo
Antes de iniciar cualquier actividad laboral, el fundador de Amazon dedica la primera hora del día a ejercicios, lectura y meditación, alejándose completamente del celular y otros distractores tecnológicos
Casi el 100% del público no detecta canciones generadas por IA según una encuesta global
El público apenas distingue entre canciones hechas por humanos o algoritmos, mientras músicos y ejecutivos alertan sobre el riesgo de homogeneización y la pérdida de valor autoral en la era digital

Descubre los mejores trucos para evitar estafas en Airbnb y Booking en diciembre de 2025
Los fraudes más habituales al buscar un alojamiento para las vacaciones incluyen anuncios falsos y suplantación de identidad



