La IA se volvió más confiable este año, pero no porque se haya vuelto más inteligente

El progreso vino de aceptar que los modelos solos no alcanzan y rodearlos de herramientas viejas que sí funcionan

Guardar
Ilustración de un robot gris con el logo "IA" en una mesa. Manos humanas le dan y reciben libros, calculadora y regla. También hay monitores antiguos y cables
Los modelos actuales dependen de la experiencia de humanos, el uso de herramientas externas y auditorías cruzadas para reducir errores. (Imagen Ilustrativa Infobae)

En marzo de 2025, un estudio publicado en npj Digital Medicine, del grupo Nature, puso a ChatGPT a resolver 48 tareas de cálculo médico estándar. La IA respondió mal en una de cada tres consultas. Los investigadores repitieron el experimento agregando al modelo una calculadora médica específica. La precisión pasó del 4,8% al 95% en los modelos GPT, y el margen de error cayó 13 veces.

La IA no se volvió más inteligente, aprendió a pedir ayuda.

Esa es la historia central del año en inteligencia artificial, y es la que The Wall Street Journal reconstruyó esta semana en un análisis firmado por Christopher Mims. Los modelos que hoy usan 500 millones de personas por semana son más confiables que hace 12 meses, pero el progreso no vino de un salto hacia la superinteligencia. Vino de algo mucho más modesto: los ingenieros aceptaron que el modelo solo no alcanza y lo rodearon de muletas.

Los LLM nunca razonaron, y ahora hay evidencia dura

En octubre de 2024, seis investigadores de Apple liderados por Iman Mirzadeh publicaron un paper llamado GSM-Symbolic que pasó desapercibido para el público general pero incomodó a la industria. Evaluaron más de 20 modelos, incluidos los de OpenAI, Google y Meta, con 5.000 problemas matemáticos de nivel escolar. El experimento era simple: tomaban un problema resuelto y solo cambiaban los valores numéricos. La estructura del razonamiento, idéntica.

El rendimiento cayó en todos los modelos.

Cuando agregaron una cláusula irrelevante al enunciado, una oración que cualquier chico de diez años descartaría, la caída llegó al 65%. La conclusión del paper fue demoledora: los programas de inteligencia artificial basados en redes neuronales (LLM) no realizan razonamiento lógico genuino, replican pasos de razonamiento desde sus datos de entrenamiento. Son reconocedores de patrones a escala masiva. No piensan, calculan probabilidades sobre qué palabra viene después.

Imagen abstracta con la sigla IA en el centro, rodeada por una red de líneas y nodos, conectando una lupa, dos libretas, un teclado y una calculadora sobre un fondo claro.
La confiabilidad de la inteligencia artificial mejoró gracias a la integración de herramientas tradicionales como calculadoras y buscadores.(Imagen Ilustrativa Infobae)

Tres muletas convirtieron un predictor defectuoso en una herramienta útil

Mims identifica tres cambios concretos que explican la mejora. El primero: los modelos ahora incorporan conocimiento especializado producido por humanos expertos pagados por hora, no solo texto raspado de internet. El segundo: aprendieron a usar herramientas externas. Cuando detectan un cálculo, delegan a Python o a una calculadora real. Cuando necesitan información fresca, consultan Google. El tercero: los modelos se auditan entre sí. Antes de entregar una respuesta compleja, muchos sistemas de producción piden a otro modelo que la revise.

Nada de esto es razonamiento, es ingeniería de software tradicional rodeando un predictor probabilístico. Según consigna The Wall Street Journal, OpenAI reconoció que su modelo principal actual produce 26% menos errores factuales que GPT-4o. No porque el modelo razone mejor, sino porque aprendió a consultar, delegar y verificar.

Gary Marcus, uno de los críticos más consistentes del hype de la IA, lo sintetizó en la misma nota: los LLM siguen siendo igual de poco fiables que siempre, pero ahora se pueden combinar con tecnologías deterministas que habían perdido prestigio y que resultan utilísimas. Marcus nunca elogia a la industria. Esta vez lo hizo, y describió exactamente lo contrario al mito de la superinteligencia.

La confesión involuntaria de Anthropic

La prueba más clara apareció por accidente. El 31 de marzo pasado, un investigador llamado Chaofan Shou descubrió que Anthropic había dejado expuesto por error el código fuente de Claude Code, su agente más vendido. Anthropic confirmó el episodio a The Register y Axios: fue un error humano de empaquetado. Lo que el código reveló es lo interesante. Adentro del agente que factura USD 2.500 millones anualizados hay instrucciones explícitas para que el modelo trate su propia memoria como una pista y verifique los hechos contra el código real antes de responder.

Los propios ingenieros de Anthropic no confían en que su modelo recuerde bien. Por eso lo obligan a chequear. Afuera venden razonamiento avanzado. Adentro programaron desconfianza.

Múltiples monitores de ordenador en un entorno de oficina, mostrando código, hojas de cálculo y navegadores web, con un post-it amarillo en una pantalla que dice: 'No confiar ciegamente en la IA'.
El avance de la IA depende de la integración con recursos y soluciones ya existentes, y no de un salto en su capacidad de razonamiento. (Imagen Ilustrativa Infobae)

El valor está donde los CEOs no están mirando

Acá aparece la paradoja incómoda. Los directivos que hoy despiden empleados esperando que la IA los reemplace están comprando un producto que no existe como lo imaginan. Lo que sí existe es una arquitectura compleja donde el modelo de lenguaje es apenas un componente. Hay código tradicional para gestionar la memoria, hay herramientas externas para calcular, hay buscadores para consultar datos frescos, hay sistemas donde un modelo audita a otro antes de entregar la respuesta.

Todo eso requiere ingenieros que sepan combinar piezas. No menos empleados. Más.

La IA es más útil hoy que hace un año porque la industria abandonó la promesa original. Los modelos no se acercaron a la inteligencia humana, se alejaron de ella con elegancia y dejaron que el trabajo duro lo hagan calculadoras, buscadores y código viejo. El valor económico de la próxima década no va a estar en los modelos. Va a estar en los equipos capaces de construir los andamios que los sostienen. Los que crean que pueden reemplazar empleados con una suscripción mensual a un chatbot están comprando humo con descuento.