
En marzo de 2025, un estudio publicado en npj Digital Medicine, del grupo Nature, puso a ChatGPT a resolver 48 tareas de cálculo médico estándar. La IA respondió mal en una de cada tres consultas. Los investigadores repitieron el experimento agregando al modelo una calculadora médica específica. La precisión pasó del 4,8% al 95% en los modelos GPT, y el margen de error cayó 13 veces.
La IA no se volvió más inteligente, aprendió a pedir ayuda.
Esa es la historia central del año en inteligencia artificial, y es la que The Wall Street Journal reconstruyó esta semana en un análisis firmado por Christopher Mims. Los modelos que hoy usan 500 millones de personas por semana son más confiables que hace 12 meses, pero el progreso no vino de un salto hacia la superinteligencia. Vino de algo mucho más modesto: los ingenieros aceptaron que el modelo solo no alcanza y lo rodearon de muletas.
Los LLM nunca razonaron, y ahora hay evidencia dura
En octubre de 2024, seis investigadores de Apple liderados por Iman Mirzadeh publicaron un paper llamado GSM-Symbolic que pasó desapercibido para el público general pero incomodó a la industria. Evaluaron más de 20 modelos, incluidos los de OpenAI, Google y Meta, con 5.000 problemas matemáticos de nivel escolar. El experimento era simple: tomaban un problema resuelto y solo cambiaban los valores numéricos. La estructura del razonamiento, idéntica.
El rendimiento cayó en todos los modelos.
Cuando agregaron una cláusula irrelevante al enunciado, una oración que cualquier chico de diez años descartaría, la caída llegó al 65%. La conclusión del paper fue demoledora: los programas de inteligencia artificial basados en redes neuronales (LLM) no realizan razonamiento lógico genuino, replican pasos de razonamiento desde sus datos de entrenamiento. Son reconocedores de patrones a escala masiva. No piensan, calculan probabilidades sobre qué palabra viene después.

Tres muletas convirtieron un predictor defectuoso en una herramienta útil
Mims identifica tres cambios concretos que explican la mejora. El primero: los modelos ahora incorporan conocimiento especializado producido por humanos expertos pagados por hora, no solo texto raspado de internet. El segundo: aprendieron a usar herramientas externas. Cuando detectan un cálculo, delegan a Python o a una calculadora real. Cuando necesitan información fresca, consultan Google. El tercero: los modelos se auditan entre sí. Antes de entregar una respuesta compleja, muchos sistemas de producción piden a otro modelo que la revise.
Nada de esto es razonamiento, es ingeniería de software tradicional rodeando un predictor probabilístico. Según consigna The Wall Street Journal, OpenAI reconoció que su modelo principal actual produce 26% menos errores factuales que GPT-4o. No porque el modelo razone mejor, sino porque aprendió a consultar, delegar y verificar.
Gary Marcus, uno de los críticos más consistentes del hype de la IA, lo sintetizó en la misma nota: los LLM siguen siendo igual de poco fiables que siempre, pero ahora se pueden combinar con tecnologías deterministas que habían perdido prestigio y que resultan utilísimas. Marcus nunca elogia a la industria. Esta vez lo hizo, y describió exactamente lo contrario al mito de la superinteligencia.
La confesión involuntaria de Anthropic
La prueba más clara apareció por accidente. El 31 de marzo pasado, un investigador llamado Chaofan Shou descubrió que Anthropic había dejado expuesto por error el código fuente de Claude Code, su agente más vendido. Anthropic confirmó el episodio a The Register y Axios: fue un error humano de empaquetado. Lo que el código reveló es lo interesante. Adentro del agente que factura USD 2.500 millones anualizados hay instrucciones explícitas para que el modelo trate su propia memoria como una pista y verifique los hechos contra el código real antes de responder.
Los propios ingenieros de Anthropic no confían en que su modelo recuerde bien. Por eso lo obligan a chequear. Afuera venden razonamiento avanzado. Adentro programaron desconfianza.

El valor está donde los CEOs no están mirando
Acá aparece la paradoja incómoda. Los directivos que hoy despiden empleados esperando que la IA los reemplace están comprando un producto que no existe como lo imaginan. Lo que sí existe es una arquitectura compleja donde el modelo de lenguaje es apenas un componente. Hay código tradicional para gestionar la memoria, hay herramientas externas para calcular, hay buscadores para consultar datos frescos, hay sistemas donde un modelo audita a otro antes de entregar la respuesta.
Todo eso requiere ingenieros que sepan combinar piezas. No menos empleados. Más.
La IA es más útil hoy que hace un año porque la industria abandonó la promesa original. Los modelos no se acercaron a la inteligencia humana, se alejaron de ella con elegancia y dejaron que el trabajo duro lo hagan calculadoras, buscadores y código viejo. El valor económico de la próxima década no va a estar en los modelos. Va a estar en los equipos capaces de construir los andamios que los sostienen. Los que crean que pueden reemplazar empleados con una suscripción mensual a un chatbot están comprando humo con descuento.
Últimas Noticias
El último movimiento de Meta en la carrera de la IA: empleados de startup fundada por una ex OpenAI
Thinking Machine Lab es una nueva startup enfocada en inteligencia artificial que tiene una valoración que asciende a 12.000 millones de dólares

Lista de códigos de Free Fire para canjear premios este martes 21 de abril de 2026
Garena liberó más de 20 combinaciones que los jugadores pueden aprovechar para reclamar diamantes, skins y otras recompensas

El director de tecnología de Meta confiesa que sufre estrés recurrente y explica qué los provoca
Andrew Bosworth asegura que el estrés aparece pocas veces al año, pero siempre por la misma causa: la sobrecarga de tareas sin foco claro

Aprende un nuevo idioma con ayuda de la IA gracias a esta nueva herramienta de Google
Una de sus funciones ofrece micro-lecciones personalizadas para situaciones cotidianas

¿Quieres invertir en criptomonedas? Conoce su valor y cómo ha fluctuado en las últimas horas
Estos han sido los movimientos de las criptomonedas en las últimas horas



