Cómo encontrar la IA más inteligente

Los desarrolladores están creando pruebas diabólicas que sólo los mejores modelos pueden superar

Guardar
Existen numerosas pruebas para modelos
Existen numerosas pruebas para modelos de IA. Algunas buscan medir conocimientos generales, otras son específicas de cada tema (Freepik)

La vertiginosa cantidad de letras esparcidas por la página de una de las preguntas de razonamiento visual de Jonathan Roberts se asemeja a una sopa de letras elaborada por un sádico. Los examinados no solo tienen que encontrar las palabras ocultas en la imagen, sino también identificar una pregunta escrita en forma de estrella y responderla.

La intención de la antología de cien preguntas del Sr. Roberts no es ayudar a la gente a pasar el rato en el tren. En cambio, es proporcionar a modelos de inteligencia artificial (IA) de vanguardia como o3-pro, la versión de gama alta de OpenAI lanzada en junio, una prueba a la altura de sus habilidades.

Existen numerosas pruebas para modelos de IA. Algunas buscan medir conocimientos generales, otras son específicas de cada tema. Las hay que buscan evaluar todo, desde la resolución de acertijos y la creatividad hasta la capacidad de conversación. Pero no todas estas llamadas pruebas de referencia cumplen lo que prometen. Muchas se elaboraron apresuradamente, con fallos y omisiones; eran demasiado fáciles de manipular, al haberse filtrado en los datos de entrenamiento de los modelos de IA; o simplemente eran demasiado fáciles para los sistemas de vanguardia actuales.

ZeroBench, el desafío lanzado por el Sr. Roberts y sus colegas de la Universidad de Cambridge, es una alternativa destacada. Está dirigido a grandes modelos multimodales (sistemas de IA que pueden aceptar imágenes y texto como entrada) y busca presentar una prueba que sea relativamente fácil para la persona promedio e imposible para los modelos de vanguardia. Por ahora, ningún modelo de lenguaje grande (LLM) puede obtener un solo punto. Si algún día alguna nueva empresa lo superara, sería todo un logro.

ZeroBench no está solo. EnigmaEval es una colección de más de mil rompecabezas multimodales creados por Scale AI, una startup de datos de IA. A diferencia de ZeroBench, EnigmaEval no pretende ser fácil para nadie. Los rompecabezas, seleccionados a partir de diversos recursos de cuestionarios en línea preexistentes, comienzan con la dificultad de un crucigrama críptico complejo y se vuelven más difíciles a partir de ahí. Cuando los sistemas de IA avanzados se enfrentan a los problemas más difíciles, su puntuación media es cero. Un modelo de vanguardia de Anthropic, un laboratorio de IA, es el único que ha respondido correctamente a una sola de estas preguntas.

Otros conjuntos de preguntas intentan rastrear habilidades más específicas. METR, un grupo de seguridad en IA, por ejemplo, rastrea el tiempo que las personas tardarían en realizar tareas individuales que los modelos de IA ahora son capaces de realizar (Anthropic es el primero en superar la barrera de la hora). Otro punto de referencia, el ostentosamente llamado “El Último Examen de la Humanidad”, evalúa el conocimiento, en lugar de la inteligencia, con preguntas de vanguardia del conocimiento humano, obtenidas de casi mil expertos académicos.

Una de las razones de la abundancia de nuevos exámenes es el deseo de evitar los errores del pasado. Los puntos de referencia antiguos abundan con formulaciones descuidadas, esquemas de calificación deficientes o preguntas injustas. ImageNet, un conjunto de datos de reconocimiento de imágenes temprano, es un ejemplo infame: un modelo que describe la fotografía de un espejo en el que se refleja una fruta es penalizado por decir que la imagen es de un espejo, pero recompensado por identificar un plátano.

Es imposible pedir a los modelos que resuelvan versiones corregidas de estas pruebas sin comprometer la capacidad de los investigadores para compararlas con los modelos que utilizaron las versiones defectuosas. Las pruebas más recientes, creadas en una época en la que la investigación en IA cuenta con abundantes recursos, pueden ser revisadas minuciosamente para detectar dichos errores antes de su producción.

La segunda razón de la prisa por crear nuevas pruebas es que los modelos han aprendido las antiguas. Ha resultado difícil mantener un punto de referencia común fuera de los datos de entrenamiento que utilizan los laboratorios para entrenar sus modelos, lo que resulta en sistemas que obtienen mejores resultados en los exámenes que en tareas normales.

El tercer y más apremiante problema que motiva la creación de nuevas pruebas es la saturación: los modelos de IA se acercan a la puntuación máxima. En una selección de 500 problemas de matemáticas de secundaria, por ejemplo, es probable que o3-pro obtenga una puntuación casi perfecta. Sin embargo, como o1-mini, lanzado nueve meses antes, obtuvo una puntuación del 98,9 %, los resultados no ofrecen a los observadores una idea real de progreso en este campo.

Aquí es donde ZeroBench y sus competidores entran en escena. Cada uno intenta medir cómo las capacidades de la IA se acercan, o superan, a las de los humanos. El Último Examen de la Humanidad, por ejemplo, buscó diseñar intimidantes preguntas de cultura general (su nombre deriva de su condición de la prueba más compleja de este tipo que se puede plantear), solicitando desde el número de tendones que soporta un hueso de colibrí hasta la traducción de un fragmento de escritura palmirena hallado en una lápida romana. En un futuro donde muchos modelos de IA puedan obtener la máxima puntuación en una prueba de este tipo, quienes establecen los puntos de referencia podrían tener que abandonar por completo las preguntas basadas en el conocimiento.

Pero incluso las evaluaciones que se supone que resistirán el paso del tiempo se derrumban de la noche a la mañana. ARC-AGI, un cuestionario de razonamiento no verbal, se introdujo en 2024 con la intención de dificultar la tarea de los modelos de IA. Seis meses después, OpenAI anunció un modelo, o3, capaz de obtener una puntuación del 91,5 %.

Para algunos desarrolladores de IA, los puntos de referencia existentes no son la solución. El director de OpenAI, Sam Altman, insinuó las dificultades de cuantificar lo incuantificable cuando la empresa lanzó su GPT-4.5 en febrero. El sistema “no superará los estándares de rendimiento”, tuiteó. En cambio, añadió, antes de publicar un relato breve escrito por el modelo: “Tiene una magia que no había sentido antes”.

Algunos intentan cuantificar esa magia. Chatbot Arena, por ejemplo, permite a los usuarios chatear a ciegas con pares de LLM antes de que se les pida que elijan cuál es “mejor”, sea cual sea su definición del término. Los modelos que ganan la mayoría de los enfrentamientos ascienden a la cima de la clasificación. Este enfoque menos rígido parece capturar parte de esa “magia” inefable que otros sistemas de clasificación no pueden. Sin embargo, también se pueden manipular, ya que los modelos más atractivos obtienen mejores puntuaciones con usuarios humanos seductores.

Otros, tomando prestado un argumento familiar para cualquiera con hijos en edad escolar, cuestionan qué puede revelar cualquier prueba sobre un modelo de IA más allá de su capacidad para superarla. Simon Willison, investigador independiente de IA en California, anima a los usuarios a realizar un seguimiento de las consultas que los sistemas de IA existentes no resuelven antes de plantearlas a sus sucesores. De esta forma, pueden seleccionar modelos que se desempeñen bien en las tareas que les interesan, en lugar de sistemas con puntuaciones altas que no se adaptan a sus necesidades.

Todo esto presupone que los modelos de IA están dando lo mejor de sí en las pruebas que se les presentan. El sandbagging, en el que los modelos fallan deliberadamente en las pruebas para ocultar sus verdaderas capacidades (para, por ejemplo, evitar ser eliminados), se ha observado en un número creciente de modelos. En un informe publicado en mayo por investigadores de MATS, un grupo de seguridad de IA, los mejores LLM pudieron identificar cuándo estaban siendo evaluados casi tan bien como los propios investigadores. Esto también complica la búsqueda de puntos de referencia fiables.

Dicho esto, el valor para las empresas de IA de tablas de clasificación sencillas que sus productos puedan superar significa que la carrera por crear mejores puntos de referencia continuará. ARC-AGI 2 se lanzó en marzo y aún elude a los sistemas líderes actuales. Sin embargo, conscientes de la rapidez con la que esto podría cambiar, el trabajo en ARC-AGI 3 ya ha comenzado.

© 2025, The Economist Newspaper Limited. All rights reserved.