Inteligencia artificial: una nueva métrica mide su desempeño frente a tareas humanas

Guardar

Personas afectadas por el desempleo debido a la automatización y el impacto de la inteligencia artificial en el trabajo. – (Imagen Ilustrativa Infobae)

El horizonte temporal de finalización de tareas (TCTH) mide la eficiencia de modelos de IA (Imagen ilustrativa, no real, realizada por IA)

En un trabajo publicado en el repositorio arXiv por el equipo de la organización sin fines de lucro METR, con sede en California, los investigadores introdujeron una nueva métrica para evaluar el rendimiento de modelos de inteligencia artificial (IA) a partir de tareas realizadas por humanos.

Esta métrica, denominada horizonte temporal de finalización de tareas (TCTH), estima el tiempo promedio que necesita una persona con conocimientos en un área para completar una tarea que un modelo puede resolver con un 50% de éxito.

El estudio incluyó tareas reales en campos como programación, ciberseguridad y aprendizaje automático, y permite establecer un criterio continuo y comparable para observar la evolución de las capacidades de los modelos de IA en relación con el trabajo humano.

Claude 3.7 Sonnet resuelve tareas que requieren 59 minutos de trabajo humano (Imagen ilustrativa, no real, realizada por IA)

El documento, titulado “Measuring AI Ability to Complete Long Tasks”, sugiere que esta metodología es más representativa que los benchmarks tradicionales, como GLUE o MMLU, que suelen saturarse rápidamente o miden habilidades específicas de forma aislada.

Una métrica alineada con capacidades humanas

El TCTH se construye a partir de una lógica sencilla: si un modelo logra resolver con éxito el 50 % de las tareas que a un humano le toman una cierta cantidad de tiempo, ese tiempo se considera su “horizonte”, informó Tech Xplore.

De esta forma, el valor del horizonte permite comparar la eficiencia de los modelos con base en una referencia empírica: el tiempo humano.

Para calibrar esta métrica, METR reunió una batería de 170 tareas reales y complejas, muchas de las cuales requieren varias horas de trabajo continuo, de acuerdo con información de Nature.

En cada una, se midió cuánto tiempo tardaban expertos humanos en completarlas y se comparó con el desempeño de 13 modelos de IA desarrollados entre 2019 y 2025, como GPT-2, GPT-3, GPT-4, Claude 3 Opus, Claude 3.5 Sonnet y Claude 3.7 Sonnet.

Resultados del estudio con 170 tareas reales

Los investigadores encontraron una correlación negativa entre el tiempo que tarda una persona en completar una tarea y la probabilidad de éxito de los modelos: cuanto más larga es la tarea, menor es el rendimiento.

GPT-2, por ejemplo, no logró resolver ninguna tarea que los humanos completaran en más de un minuto. En contraste, el modelo más reciente de Anthropic, Claude 3.7 Sonnet, lanzado en 2025, resolvió exitosamente la mitad de las tareas que exigían un promedio de 59 minutos de trabajo humano, informaron ambos medios de ciencia y tecnología.

Las tareas evaluadas incluyeron desde acciones atómicas de segundos (como identificar archivos sospechosos) hasta proyectos que tomaban 8 horas, como la optimización de código CUDA. La métrica también fue validada mediante otros benchmarks existentes, como SWE-bench Verified, y a través de tareas internas de la propia organización.

El crecimiento exponencial y su aceleración reciente

Uno de los hallazgos centrales del estudio es que el horizonte de tareas que los modelos pueden completar con éxito se ha duplicado cada siete meses desde 2019. En 2024, la tasa de progreso se aceleró aún más, con duplicaciones cada tres meses, según Nature.

Innovación tecnológica, desarrollo de IA, análisis masivo, robótica moderna, plataformas digitales, equipo joven, colaboración creativa. - (Imagen Ilustrativa Infobae)

Los modelos de IA enfrentan desafíos en tareas con ambigüedad y sin retroalimentación clara (Imagen ilustrativa, no real, realizada por IA)

Esta evolución fue impulsada por mejoras en la capacidad de razonamiento lógico, el uso efectivo de herramientas, la capacidad de adaptación a errores y una mayor estabilidad en la ejecución de instrucciones.

Según los cálculos de METR, si la tendencia continúa, los modelos podrían alcanzar un TCTH de un mes de trabajo humano (167 horas) entre finales de 2028 y comienzos de 2031. Esto equivaldría a que un modelo pueda realizar con éxito la mitad de las tareas que un profesional calificado completaría tras un mes de dedicación continua.

Limitaciones, validaciones y tareas reales

El informe reconoce limitaciones metodológicas: las tareas utilizadas, aunque complejas, son más limpias y estructuradas que muchas tareas reales, que involucran ambigüedad, decisiones estratégicas o interacción entre agentes.

Para explorar esta brecha, METR diseñó una serie de experimentos de validación con tareas “desordenadas” o difíciles de puntuar automáticamente.

En un conjunto de tareas internas del repositorio de METR, se observó que los humanos contratistas tardaban entre 5 y 18 veces más que los mantenedores del código para resolver las mismas incidencias.

Los modelos de IA mostraron un rendimiento alineado con el tiempo que requerían estos contratistas, lo que sugiere que su capacidad actual equivale a la de personas con bajo contexto del entorno laboral.

También se comprobó que muchos modelos aún fallan cuando deben anticipar información que no está explícita o cuando enfrentan entornos sin retroalimentación clara.

Incluso Claude 3.7, uno de los modelos más eficientes, tiene una brecha significativa entre su horizonte del 50 % (59 minutos) y su horizonte del 80 % (15 minutos), lo que indica una falta de confiabilidad sostenida en tareas largas.

Últimas Noticias

Publicar el certificado de elecciones presidenciales en WhatsApp aumenta el riesgo de suplantación de identidad

El documento integra datos como el número de cédula y la ubicación de votación que pueden ser utilizados por ciberdelincuentes para fraudes

Si tu celular carga lento, el problema puede ser la manera en la que conectas la USB del cargador

Aunque los cables parezcan ser iguales por ambos lados, la verdad es que el funcionamiento no siempre es el mismo

Recupera todas las conversaciones en WhatsApp con tu pareja o ex en minutos

La restauración depende de respaldos en Google Drive o iCloud, porque WhatsApp no guarda conversaciones en sus servidores, por lo que el proceso exige reinstalar la app

Elecciones presidenciales: descarga esta app y consulta en tiempo real resultados de Iván Cepeda y Abelardo de la Espriella

La app aVotar está disponible sin costo en Google Play Store y en la App Store, no exige registro ni suscripción y permite tener los resultados en tan solo segundos

Inteligencia artificial: una nueva métrica mide su desempeño frente a tareas humanas

La nueva metodología evalúa si los modelos pueden resolver con éxito tareas complejas que requieren desde minutos hasta horas de esfuerzo

Una métrica alineada con capacidades humanas

Resultados del estudio con 170 tareas reales

El crecimiento exponencial y su aceleración reciente

Limitaciones, validaciones y tareas reales

Últimas Noticias

Publicar el certificado de elecciones presidenciales en WhatsApp aumenta el riesgo de suplantación de identidad

El documento integra datos como el número de cédula y la ubicación de votación que pueden ser utilizados por ciberdelincuentes para fraudes

Si tu celular carga lento, el problema puede ser la manera en la que conectas la USB del cargador

Aunque los cables parezcan ser iguales por ambos lados, la verdad es que el funcionamiento no siempre es el mismo

Recupera todas las conversaciones en WhatsApp con tu pareja o ex en minutos

La restauración depende de respaldos en Google Drive o iCloud, porque WhatsApp no guarda conversaciones en sus servidores, por lo que el proceso exige reinstalar la app

Elecciones presidenciales: descarga esta app y consulta en tiempo real resultados de Iván Cepeda y Abelardo de la Espriella

La app aVotar está disponible sin costo en Google Play Store y en la App Store, no exige registro ni suscripción y permite tener los resultados en tan solo segundos

Elecciones Colombia: cuál es mi mesa de votación, cómo es el tarjetón y más tendencias en Google

Hoy se realiza en el país la segunda vuelta presidencial, una jornada electoral que inició a las 8:00 a.m. y concluirá a las 4:00 p.m.

DEPORTES

Los argentinos Yael Falcón Pérez y Facundo Tello serán los árbitros de dos partidos claves en el Mundial 2026

Uruguay vs Cabo Verde, EN VIVO, por el Mundial 2026: hora, TV, formaciones y todo lo que hay que saber

Condiciones especiales para quienes asisten al Mundial en Miami Stadium: controles, traslados y alternativas

Cerúndolo hizo historia en el césped de Londres: se consagró campeón del ATP 500 de Queen’s tras vencer a Tommy Paul

Las remontadas de los argentinos Morelli y Perrone para sumar puntos en el Moto3 en República Checa

TELESHOW

Abrazos virtuales, lágrimas y mucho humor: los saludos del Día del Padre que marcan la jornada de los famosos

El particular gesto de la China Suárez con la madre de Mauro Icardi el día de su cumpleaños

El desgarrador testimonio de Silvina Scheffler después de padecer leptospirosis: “Perdí mi pelo”

El conmovedor momento en el que Skay Beilinson le dedicó una simbólica canción al Indio Solari en pleno show

Gerónimo Rauch y la noche que conquistó al público internacional en “Los Miserables”: “Me estoy preparando hace 26 años”

INFOBAE AMÉRICA

Honduras pone en alerta a cuatro departamentos ante el avance de un sistema lluvioso

Licencia de paternidad en Costa Rica: multinacionales amplían beneficios más allá del mínimo legal

Las claves detrás del repunte de la Zona Libre de Colón, Panamá en 2026

El menú nicaragüense que conquistó Madrid desde la experiencia de una migrante

Murió Slavenka Drakulic, la escritora que introdujo el feminismo en la ex Yugoslavia comunista

Una métrica alineada con capacidades humanas

Resultados del estudio con 170 tareas reales

El crecimiento exponencial y su aceleración reciente

Limitaciones, validaciones y tareas reales

Temas Relacionados

Últimas Noticias

Publicar el certificado de elecciones presidenciales en WhatsApp aumenta el riesgo de suplantación de identidad

El documento integra datos como el número de cédula y la ubicación de votación que pueden ser utilizados por ciberdelincuentes para fraudes

Si tu celular carga lento, el problema puede ser la manera en la que conectas la USB del cargador

Aunque los cables parezcan ser iguales por ambos lados, la verdad es que el funcionamiento no siempre es el mismo

Recupera todas las conversaciones en WhatsApp con tu pareja o ex en minutos

La restauración depende de respaldos en Google Drive o iCloud, porque WhatsApp no guarda conversaciones en sus servidores, por lo que el proceso exige reinstalar la app

Elecciones presidenciales: descarga esta app y consulta en tiempo real resultados de Iván Cepeda y Abelardo de la Espriella

La app aVotar está disponible sin costo en Google Play Store y en la App Store, no exige registro ni suscripción y permite tener los resultados en tan solo segundos

Elecciones Colombia: cuál es mi mesa de votación, cómo es el tarjetón y más tendencias en Google

Hoy se realiza en el país la segunda vuelta presidencial, una jornada electoral que inició a las 8:00 a.m. y concluirá a las 4:00 p.m.

DEPORTES

Los argentinos Yael Falcón Pérez y Facundo Tello serán los árbitros de dos partidos claves en el Mundial 2026

Uruguay vs Cabo Verde, EN VIVO, por el Mundial 2026: hora, TV, formaciones y todo lo que hay que saber

Condiciones especiales para quienes asisten al Mundial en Miami Stadium: controles, traslados y alternativas

Cerúndolo hizo historia en el césped de Londres: se consagró campeón del ATP 500 de Queen’s tras vencer a Tommy Paul

Las remontadas de los argentinos Morelli y Perrone para sumar puntos en el Moto3 en República Checa

TELESHOW

Abrazos virtuales, lágrimas y mucho humor: los saludos del Día del Padre que marcan la jornada de los famosos

El particular gesto de la China Suárez con la madre de Mauro Icardi el día de su cumpleaños

El desgarrador testimonio de Silvina Scheffler después de padecer leptospirosis: “Perdí mi pelo”

El conmovedor momento en el que Skay Beilinson le dedicó una simbólica canción al Indio Solari en pleno show

Gerónimo Rauch y la noche que conquistó al público internacional en “Los Miserables”: “Me estoy preparando hace 26 años”

INFOBAE AMÉRICA

Honduras pone en alerta a cuatro departamentos ante el avance de un sistema lluvioso

Licencia de paternidad en Costa Rica: multinacionales amplían beneficios más allá del mínimo legal

Las claves detrás del repunte de la Zona Libre de Colón, Panamá en 2026

El menú nicaragüense que conquistó Madrid desde la experiencia de una migrante

Murió Slavenka Drakulic, la escritora que introdujo el feminismo en la ex Yugoslavia comunista