
En marzo de 2025, un estudio publicado en npj Digital Medicine, del grupo Nature, puso a ChatGPT a resolver 48 tareas de cálculo médico estándar. La IA respondió mal en una de cada tres consultas. Los investigadores repitieron el experimento agregando al modelo una calculadora médica específica. La precisión pasó del 4,8% al 95% en los modelos GPT, y el margen de error cayó 13 veces.
La IA no se volvió más inteligente, aprendió a pedir ayuda.
Esa es la historia central del año en inteligencia artificial, y es la que The Wall Street Journal reconstruyó esta semana en un análisis firmado por Christopher Mims. Los modelos que hoy usan 500 millones de personas por semana son más confiables que hace 12 meses, pero el progreso no vino de un salto hacia la superinteligencia. Vino de algo mucho más modesto: los ingenieros aceptaron que el modelo solo no alcanza y lo rodearon de muletas.
PUBLICIDAD
Los LLM nunca razonaron, y ahora hay evidencia dura
En octubre de 2024, seis investigadores de Apple liderados por Iman Mirzadeh publicaron un paper llamado GSM-Symbolic que pasó desapercibido para el público general pero incomodó a la industria. Evaluaron más de 20 modelos, incluidos los de OpenAI, Google y Meta, con 5.000 problemas matemáticos de nivel escolar. El experimento era simple: tomaban un problema resuelto y solo cambiaban los valores numéricos. La estructura del razonamiento, idéntica.
El rendimiento cayó en todos los modelos.
Cuando agregaron una cláusula irrelevante al enunciado, una oración que cualquier chico de diez años descartaría, la caída llegó al 65%. La conclusión del paper fue demoledora: los programas de inteligencia artificial basados en redes neuronales (LLM) no realizan razonamiento lógico genuino, replican pasos de razonamiento desde sus datos de entrenamiento. Son reconocedores de patrones a escala masiva. No piensan, calculan probabilidades sobre qué palabra viene después.
PUBLICIDAD

Tres muletas convirtieron un predictor defectuoso en una herramienta útil
Mims identifica tres cambios concretos que explican la mejora. El primero: los modelos ahora incorporan conocimiento especializado producido por humanos expertos pagados por hora, no solo texto raspado de internet. El segundo: aprendieron a usar herramientas externas. Cuando detectan un cálculo, delegan a Python o a una calculadora real. Cuando necesitan información fresca, consultan Google. El tercero: los modelos se auditan entre sí. Antes de entregar una respuesta compleja, muchos sistemas de producción piden a otro modelo que la revise.
Nada de esto es razonamiento, es ingeniería de software tradicional rodeando un predictor probabilístico. Según consigna The Wall Street Journal, OpenAI reconoció que su modelo principal actual produce 26% menos errores factuales que GPT-4o. No porque el modelo razone mejor, sino porque aprendió a consultar, delegar y verificar.
PUBLICIDAD
Gary Marcus, uno de los críticos más consistentes del hype de la IA, lo sintetizó en la misma nota: los LLM siguen siendo igual de poco fiables que siempre, pero ahora se pueden combinar con tecnologías deterministas que habían perdido prestigio y que resultan utilísimas. Marcus nunca elogia a la industria. Esta vez lo hizo, y describió exactamente lo contrario al mito de la superinteligencia.
La confesión involuntaria de Anthropic
La prueba más clara apareció por accidente. El 31 de marzo pasado, un investigador llamado Chaofan Shou descubrió que Anthropic había dejado expuesto por error el código fuente de Claude Code, su agente más vendido. Anthropic confirmó el episodio a The Register y Axios: fue un error humano de empaquetado. Lo que el código reveló es lo interesante. Adentro del agente que factura USD 2.500 millones anualizados hay instrucciones explícitas para que el modelo trate su propia memoria como una pista y verifique los hechos contra el código real antes de responder.
PUBLICIDAD
Los propios ingenieros de Anthropic no confían en que su modelo recuerde bien. Por eso lo obligan a chequear. Afuera venden razonamiento avanzado. Adentro programaron desconfianza.

El valor está donde los CEOs no están mirando
Acá aparece la paradoja incómoda. Los directivos que hoy despiden empleados esperando que la IA los reemplace están comprando un producto que no existe como lo imaginan. Lo que sí existe es una arquitectura compleja donde el modelo de lenguaje es apenas un componente. Hay código tradicional para gestionar la memoria, hay herramientas externas para calcular, hay buscadores para consultar datos frescos, hay sistemas donde un modelo audita a otro antes de entregar la respuesta.
PUBLICIDAD
Todo eso requiere ingenieros que sepan combinar piezas. No menos empleados. Más.
La IA es más útil hoy que hace un año porque la industria abandonó la promesa original. Los modelos no se acercaron a la inteligencia humana, se alejaron de ella con elegancia y dejaron que el trabajo duro lo hagan calculadoras, buscadores y código viejo. El valor económico de la próxima década no va a estar en los modelos. Va a estar en los equipos capaces de construir los andamios que los sostienen. Los que crean que pueden reemplazar empleados con una suscripción mensual a un chatbot están comprando humo con descuento.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Las preguntas prohibidas para ChatGPT, Gemini y Copilot: salud, consejos legales y terapéuticos es un peligro
Los asistentes operan con límites por privacidad y seguridad, por lo que no entregan datos personales, no facilitan accesos a cuentas ni guías ilegales

5 consejos para cuidar tu router y evitar interferencias cuando juegas o trabajas
Mantener el módem en un lugar central y ventilado, evitar el calor y la humedad y reiniciarlo periódicamente son algunas claves para mejorar la velocidad del WiFi

Detecta si está tu vecino o tu ex están conectados a tu wifi: cómo comprobar intrusos en la red
Entrar a la IP del equipo, revisar la lista de clientes y reconocer direcciones MAC permite confirmar si hay dispositivos ajenos

Los jóvenes cambian los psicólogos humanos por la IA que siempre está presente para ellos
La IA no comprende las crisis complejas y no debe usarse para diagnósticos o tratamientos de trastornos mentales

Cómo arreglar el puerto USB de mi celular con un truco casero: solo necesitas una aguja
La pelusa, el polvo y otros residuos se compactan en el conector e impiden que el cable encaje y cargue bien




