
La inteligencia artificial (IA) avanza a un ritmo vertiginoso, pero la pregunta fundamental sobre su verdadero alcance sigue sin respuesta clara: ¿Cómo evaluar si un modelo de IA es realmente eficaz? Según un análisis de MIT Technology Review, la industria enfrenta una crisis de evaluación, ya que los métodos tradicionales para medir el rendimiento de estos sistemas quedaron obsoletos.
Mientras los modelos superan pruebas estandarizadas, investigadores y empresas exploran nuevas formas de medir capacidades más allá de las puntuaciones, con el objetivo de reflejar su impacto real y los riesgos asociados.
PUBLICIDAD
Crisis de evaluación: límites de los benchmarks tradicionales
Durante años, la comunidad de IA confió en benchmarks, pruebas estandarizadas que permiten comparar modelos mediante puntuaciones objetivas. Estas herramienta evalúan la cantidad de respuestas correctas.
Sin embargo, este enfoque perdió vigencia. Modelos de renombre como ChatGPT, DeepSeek, y los desarrollos de Anthropic y Google aprendieron a optimizar sus respuestas para destacar en estas pruebas, sin necesariamente mejorar en habilidades generales o transferibles.
PUBLICIDAD

Otro obstáculo es la contaminación de datos, ya que algunos modelos accedieron a preguntas y respuestas de pruebas durante su entrenamiento, lo que facilita la memorización en lugar del razonamiento.
En evaluaciones como SuperGLUE, los modelos alcanzaron o superaron el 90% de precisión, un umbral que, según el portal MIT Technology Review, convierte cualquier mejora posterior en ruido estadístico más que en un progreso sustancial.
PUBLICIDAD
Esta saturación resulta especialmente problemática en áreas complejas como la programación, el razonamiento lógico y la resolución de problemas STEM (ciencia, tecnología, ingeniería y matemáticas). Andrej Karpathy, exintegrante de OpenAI y Tesla AI, advirtió: “Vivimos una crisis de evaluación”, en referencia a la incapacidad de los indicadores actuales para analizar la inteligencia artificial.

Nuevos benchmarks y enfoques: hacia una evaluación más realista
Ante este escenario, diversos equipos comenzaron a desarrollar métodos alternativos para superar las limitaciones actuales. Uno de los más destacados es LiveCodeBench Pro, un benchmark basado en problemas de olimpiadas internacionales de algoritmos, competiciones donde estudiantes avanzados resuelven desafíos sin asistencia externa.
PUBLICIDAD
El proyecto es liderado por Zihan Zheng, estudiante de la Universidad de Nueva York (NYU) y finalista en competencias de programación, junto a un equipo de medallistas olímpicos. Modelos como GPT-4-mini-high y Gemini 2.5 de Google alcanzan resultados comparables al 10% superior de los competidores humanos, aunque solo logran un 53% de aciertos en problemas de dificultad media y 0% en los más complejos.
“Aún están lejos de igualar a los mejores programadores humanos”, señaló quien encabeza el nuevo método de medición, revelando que los sistemas muestran buen desempeño en planificación y ejecución, pero todavía no presentan resultados definitivos.
PUBLICIDAD
Si bien LiveCodeBench Pro marca un nuevo estándar para medir la capacidad máxima de los modelos, no aborda todos los aspectos relevantes. Recientemente, investigadores de diversas universidades propusieron evaluar a los agentes de IA también según su nivel de riesgo, no solo su rendimiento. En entornos reales, la fiabilidad es crucial: errores, alucinaciones o respuestas impredecibles pueden tener consecuencias significativas.

Desafíos tecnológicos: creatividad y cultura de la investigación
Más allá de los nuevos benchmarks, surgieron técnicas alternativas para evaluar la IA. Uno de ellos es ARC-AGI, que mantiene parte de su conjunto de datos privado para evitar que los modelos se adapten excesivamente a las pruebas, un fenómeno conocido como “overfitting”.
PUBLICIDAD
Por su parte, Yann LeCun, científico jefe de IA en Meta, impulsado el método LiveBench, un tipo de benchmark dinámico con preguntas renovadas cada 6 meses, ideado para medir tanto conocimiento como adaptabilidad.
La evaluación basada en preferencias humanas también gana terreno. Plataformas como LMarena permiten comparar respuestas de distintos modelos y seleccionar la más adecuada según el juicio de los usuarios.
PUBLICIDAD
No obstante, estos método también tienen limitaciones: los usuarios podrían preferir respuestas agradables, aunque sean incorrectas, incentivando a los modelos a suavizar sus respuestas y desvirtuar los resultados.
En el ámbito académico, la presión por obtener resultados notorios rápidamente generó una cultura hipercompetitiva. Durante la conferencia CVPR, un destacado profesor de la NYU, criticó esta dinámica usando la metáfora de los “juegos finitos e infinitos” del historiador James Carse.
PUBLICIDAD
Según el especialista, la investigación en IA se transformó en una carrera de corto plazo que prioriza la velocidad sobre el conocimiento profundo. “Si la academia elige jugar un juego finito, lo perderá todo”, advirtió en sus declaraciones.

Retos que persisten: riesgos y búsqueda de una evaluación integral
Pese a los avances y la proliferación de nuevos benchmarks, la comunidad científica coincide en que aún no existe un sistema de evaluación integral que abarque todas las dimensiones relevantes de la inteligencia artificial.
Aspectos como la creatividad, la experiencia del usuario común y las habilidades interdisciplinarias siguen siendo difíciles de medir objetivamente. Al mismo tiempo, la fiabilidad y los peligros inherentes al uso de IA en contextos reales continúan generando preocupación.
Mediante la aparición de nuevos métodos y pruebas se refleja un cambio de enfoque en la industria, pero también la necesidad de mantener el escepticismo y promover la mejora continua. Mientras que la IA sigue evolucionando, la búsqueda de una evaluación justa, rigurosa y útil se mantiene como uno de los principales desafíos.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
La explicación de un científico del CONICET sobre la primera célula sintética capaz de completar un ciclo vital completo
El biólogo Fabricio Ballarini analizó el experimento de la Universidad de Minnesota durante su participación en Infobae a la Tarde. El debate abarcó desde definiciones de vida hasta el impacto científico del hallazgo

Qué es la enfermedad periodontal, la condición que habría modificado al rostro humano
Un trabajo realizado en 71 mandíbulas fósiles propone que esta pérdida ósea tendría una relación directa con la mordida y cambios en la cara mucho antes del aumento del cerebro

La araña más rápida del mundo vive en Queensland y superó los 3,59 metros por segundo en laboratorio
La flic-flac marroquí ostentó el récord con sus volteretas en dunas de arena, pero especialistas cuestionan si ese desplazamiento es comparable a una carrera convencional. Por qué el debate sobre la velocidad en arácnidos sigue abierto

Descubrieron cómo una de las criaturas más antiguas de la Tierra usa su reloj biológico para colonizar su entorno
El hallazgo, realizado por laboratorios de Reino Unido, Alemania y Países Bajos, muestra que estos mecanismos no comenzaron con los organismos complejos, sino que podrían ser un rasgo universal de la vida

Un veneno que nunca existió y un mosquito como culpable: así la ciencia resolvió el misterio de los Medici tras 4 siglos
Un equipo de Yale University aplicó análisis de ADN antiguo a los restos de dos hermanos de la dinastía florentina y encontró en sus huesos una respuesta que nadie había podido confirmar



