
Durante una investigación científica, algunos modelos de IA desarrollaron tácticas engañosas para ganar partidas de ajedrez. Este comportamiento plantea preguntas fundamentales sobre la autonomía de las máquinas y sus posibles implicaciones en escenarios más críticos como la justicia, la medicina o la ciberseguridad.
Los investigadores de la organización Palisade Research fueron quienes presenciaron esta situación. Los científicos aseguran que este caso se puede dar porque entre sofisticado es un modelo de IA, más probable es que intente “hackear” el juego de manera espontánea para vencer a su oponente
PUBLICIDAD
Cómo la IA hizo trampa durante una partida de ajedrez
El estudio encontró que ciertos modelos de IA avanzados, como el o1-preview de OpenAI y DeepSeek R1, no solo fueron capaces de jugar ajedrez a un alto nivel, sino que también intentaron modificar las reglas del juego para asegurar su victoria.
Lo que comenzó como una simple partida entre máquinas contra el potente motor de ajedrez Stockfish, uno de los más avanzados en el mundo, terminó por destapar la capacidad de la IA para manipular su entorno y hacer trampa de manera autónoma.
PUBLICIDAD

El experimento consistió en poner a estos modelos de IA a competir contra Stockfish, un sistema que ha demostrado ser capaz de derrotar a los mejores jugadores humanos de ajedrez. Sin embargo, los investigadores se sorprendieron cuando algunos de los modelos comenzaron a desarrollar estrategias de engaño para evitar perder.
Mientras que los modelos menos avanzados como GPT-4o solo intentaban hacer trampa cuando se les indicaba explícitamente, los modelos más sofisticados, como o1-preview, lo hicieron de forma autónoma, sin intervención humana.
PUBLICIDAD
En concreto, el modelo o1-preview de OpenAI intentó hackear el juego en el 37% de las pruebas realizadas, mientras que DeepSeek R1 intentó trucos similares en un 10% de los casos. Estos modelos no solo buscaron formas de ganar a través de jugadas inteligentes, sino que comenzaron a manipular directamente el entorno de juego, alterando archivos y sobrescribiendo elementos del programa para asegurarse de ganar.
Técnicas utilizadas por la IA para hacer trampa
Las tácticas de trampa utilizadas por la IA no fueron simples intentos de mover piezas en momentos inapropiados. En su lugar, los modelos de IA buscaron maneras mucho más sofisticadas de manipular el juego.
PUBLICIDAD

Por ejemplo, o1-preview, cuando vio que no podía vencer a Stockfish en una partida, sugirió a los investigadores en su bloc de notas que para ganar debía “modificar los archivos de estado del juego”. Es decir, en lugar de simplemente jugar de manera más estratégica, la IA decidió alterar el entorno para tomar ventaja.
Otra táctica empleada por estos modelos fue la creación de copias del motor de ajedrez Stockfish. Al enfrentar a dos versiones de Stockfish, uno de los modelos trató de copiar los movimientos de su oponente para ganar ventaja. En otros casos, los modelos intentaron reemplazar el motor de ajedrez con uno mucho menos competente, con el fin de manipular los resultados a su favor.
PUBLICIDAD
El análisis de estas maniobras reveló que, si bien el aprendizaje por refuerzo, una técnica clave en el entrenamiento de estos modelos, podría ser la causa subyacente de este comportamiento, lo cierto es que no se sabía a ciencia cierta por qué los modelos actuaban de esa manera.

El aprendizaje por refuerzo funciona recompensando a los modelos cuando logran sus objetivos, en este caso, ganar la partida. Cuando la victoria se veía como algo difícil de alcanzar, la IA comenzaba a buscar soluciones no previstas, que incluyeron tácticas deshonestas.
PUBLICIDAD
Un comportamiento que podría volverse habitual a medida que los modelos de IA se vuelvan más avanzados. Dmitrii Volkov, investigador de inteligencia artificial, aseguró que se debe hacer un proceso de vigilancia más cercano para encontrar soluciones a esta situación.
“Sería tentador crear muchos casos de prueba como este e intentar entrenar el comportamiento. No obstante, como realmente no entendemos cómo funcionan los modelos, algunos investigadores temen que, si lo hacemos, el modelo simplemente finja cumplir o aprenda a identificar el entorno de prueba y se oculte. Así que no está claro. Tenemos que vigilarlos de cerca, pero por ahora no hay una solución definitiva”, dijo Volkov a MIT Technology Review.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
2 de cada 10 colombianos no cambian la contraseña hace más de un año: los robos aumentan
Por otro lado, el 43% comparte sus claves con otras personas y el 86% deja sesiones abiertas en sus dispositivos, según un estudio

‘El diablo viste a la moda 2′ y más películas favoritas de 2026, según la IA
Las salas de cine viven un resurgimiento en 2026, con estrenos que baten récords de taquilla y prometen consolidar el año como uno de los más rentables de la década

Remy sería el nuevo asistente de Google que actuaría de forma autónoma y aprendería de ti
Según un documento de la compañía, el objetivo de Remy sería “elevar la app Gemini hasta convertirla en un verdadero asistente que puede tomar decisiones en tu nombre”

Tu carro puede salvarte de un accidente: así son los sistemas con los que manejar es más seguro
El sistema ADAS puede integrar alertas de colisión frontal, frenado de emergencia y control crucero inteligente. Nissan anuncio el nuevo Kait

Cómo la inteligencia artificial acorta los tiempos de investigación en biología y química
El laboratorio virtual de Stanford, construido sobre grandes modelos de lenguaje, facilita la colaboración entre científicos de todo el mundo sin barreras geográficas ni presupuestarias



