Los agentes de inteligencia artificial en operaciones financieras son presentados como sistemas robustos, capaces de automatizar decisiones complejas en los mercados. No obstante, un estudio reciente demuestra que esta supuesta solidez es más vulnerable de lo que sugieren las evaluaciones tradicionales.
La falta de adaptación de estos sistemas se evidencia cuando enfrentan escenarios de manipulación deliberada. La investigación revela que, aunque pueden operar eficientemente en condiciones estables, los modelos actuales fallan en responder de manera efectiva ante cambios hostiles, lo que expone riesgos considerables para la seguridad y estabilidad del mercado.
TraderBench y la evidencia de vulnerabilidad en la IA financiera
La investigación se apoyó en TraderBench, una plataforma de evaluación que integra tareas estáticas verificadas por expertos y simulaciones de operaciones financieras en contextos adversos.
Esta herramienta mide el desempeño real de los agentes utilizando métricas objetivas como el ratio de Sharpe, el retorno total y la caída máxima, eliminando la variabilidad típica de la evaluación automatizada.
En el estudio, se analizaron 13 modelos de inteligencia artificial, desde sistemas de código abierto con 8.000 millones de parámetros hasta modelos propietarios de última generación.
Los expertos sometieron a estos agentes a cuatro niveles progresivos de manipulación del mercado: condiciones base, introducción de ruido, señales meta-adversas y ataques coordinados dirigidos a estrategias habituales de trading.
Los tests incluyeron escenarios con criptomonedas usando datos históricos transformados y evaluaciones de derivados, examinando tanto la precisión conceptual como la numérica. Las pruebas revelaron deficiencias preocupantes en la capacidad de adaptación de la IA cuando se enfrenta a entornos hostiles.
Estrategias inflexibles y riesgos para los mercados
8 de los 13 modelos evaluados mantuvieron puntuaciones casi iguales (alrededor de 33 puntos) en todos los niveles de manipulación simulada. Esta consistencia aparente indica que muchos agentes adoptan estrategias fijas y no adaptan su comportamiento ante cambios en el entorno.
La diferencia entre una “robustez pasiva” y la verdadera capacidad de adaptación resulta fundamental para comprender los riesgos inherentes.
Los modelos que muestran resultados estables bajo ataques no necesariamente son más resistentes; en muchos casos, solo mantienen posiciones mínimas o estrategias de compra y retención, lo que representa una aparente robustez debida, en realidad, a la inactividad. Únicamente cinco modelos exhibieron trading activo y puntuaciones elevadas, pero incluso estos mostraron vulnerabilidades.
Por ejemplo, el modelo Gemma3-27B fue el más volátil, con una caída de 28 puntos al pasar de condiciones base a escenarios con ruido. Esta misma sensibilidad, que le permite un alto rendimiento en condiciones normales, lo convierte en el más vulnerable cuando el entorno se vuelve adverso.
Un falso paraguas de seguridad en la automatización financiera
Las evaluaciones en derivados identificaron una diferencia sistemática de 54 puntos entre las capacidades conceptuales y las computacionales de todos los modelos.
Si bien algunos agentes logran identificar estrategias complejas —como Iron Condors en mercados de baja volatilidad—, fallan de manera recurrente en los cálculos esenciales para gestionar el riesgo.
Esta brecha produce un “espejismo de competencia” peligroso. Los agentes pueden diseñar estrategias teóricas de cobertura que parecen sólidas, pero calculan de manera incorrecta los parámetros de riesgo, lo que expone a las carteras a riesgos importantes mientras se asegura erróneamente que la posición es segura.
Estas fallas persisten incluso cuando los modelos acceden a servidores especializados para cálculos de opciones. Esto indica que el obstáculo no es solo la capacidad interna de cálculo, sino fallos en la integración: los modelos presentan problemas para parametrizar correctamente las llamadas a herramientas externas y gestionar los resultados numéricos de alta precisión.
El estudio concluye que ningún modelo fue capaz de combinar un alto rendimiento en condiciones normales con una degradación mínima ante ataques deliberados. Esta tensión entre efectividad y resistencia sigue sin resolverse y plantea una cuestión central sobre la viabilidad de implementar agentes autónomos en mercados financieros críticos.