IA en entornos reales: el gran reto ya no es el rendimiento, sino la fiabilidad

Guardar

Los métodos tradicionales de evaluación de IA quedan obsoletos ante el avance de los modelos (Imagen Ilustrativa Infobae)

La i nteligencia artificial (IA) avanza a un ritmo vertiginoso, pero la pregunta fundamental sobre su verdadero alcance sigue sin respuesta clara: ¿Cómo evaluar si un modelo de IA es realmente eficaz? Según un análisis de MIT Technology Review, la industria enfrenta una crisis de evaluación, ya que los métodos tradicionales para medir el rendimiento de estos sistemas quedaron obsoletos.

Mientras los modelos superan pruebas estandarizadas, investigadores y empresas exploran nuevas formas de medir capacidades más allá de las puntuaciones, con el objetivo de reflejar su impacto real y los riesgos asociados.

Durante años, la comunidad de IA confió en benchmarks, pruebas estandarizadas que permiten comparar modelos mediante puntuaciones objetivas. Estas herramienta evalúan la cantidad de respuestas correctas.

Sin embargo, este enfoque perdió vigencia. Modelos de renombre como ChatGPT, DeepSeek, y los desarrollos de Anthropic y Google aprendieron a optimizar sus respuestas para destacar en estas pruebas, sin necesariamente mejorar en habilidades generales o transferibles.

Expertos advierten sobre la necesidad de evaluar creatividad, fiabilidad y riesgos en inteligencia artificial de gigantes tecnológicos (AP Foto)

Otro obstáculo es la contaminación de datos, ya que algunos modelos accedieron a preguntas y respuestas de pruebas durante su entrenamiento, lo que facilita la memorización en lugar del razonamiento.

En evaluaciones como SuperGLUE, los modelos alcanzaron o superaron el 90% de precisión, un umbral que, según el portal MIT Technology Review, convierte cualquier mejora posterior en ruido estadístico más que en un progreso sustancial.

Esta saturación resulta especialmente problemática en áreas complejas como la programación, el razonamiento lógico y la resolución de problemas STEM (ciencia, tecnología, ingeniería y matemáticas). Andrej Karpathy, exintegrante de OpenAI y Tesla AI, advirtió: “Vivimos una crisis de evaluación”, en referencia a la incapacidad de los indicadores actuales para analizar la inteligencia artificial.

El especialista y ex integrante de OpenAI, Andrej Karpathy, señaló que actualmente la tecnología atraviesa una crisis de evaluación (AP)

Ante este escenario, diversos equipos comenzaron a desarrollar métodos alternativos para superar las limitaciones actuales. Uno de los más destacados es LiveCodeBench Pro, un benchmark basado en problemas de olimpiadas internacionales de algoritmos, competiciones donde estudiantes avanzados resuelven desafíos sin asistencia externa.

El proyecto es liderado por Zihan Zheng, estudiante de la Universidad de Nueva York (NYU) y finalista en competencias de programación, junto a un equipo de medallistas olímpicos. Modelos como GPT-4-mini-high y Gemini 2.5 de Google alcanzan resultados comparables al 10% superior de los competidores humanos, aunque solo logran un 53% de aciertos en problemas de dificultad media y 0% en los más complejos.

“Aún están lejos de igualar a los mejores programadores humanos”, señaló quien encabeza el nuevo método de medición, revelando que los sistemas muestran buen desempeño en planificación y ejecución, pero todavía no presentan resultados definitivos.

Si bien LiveCodeBench Pro marca un nuevo estándar para medir la capacidad máxima de los modelos, no aborda todos los aspectos relevantes. Recientemente, investigadores de diversas universidades propusieron evaluar a los agentes de IA también según su nivel de riesgo, no solo su rendimiento. En entornos reales, la fiabilidad es crucial: errores, alucinaciones o respuestas impredecibles pueden tener consecuencias significativas.

Modelos de gran renombre en la comunidad científica, como Gemini 2.5 de Google, disminuyen sus rendimientos al ser analizados por estudiantes avanzados y sin asistencias (Google)

Más allá de los nuevos benchmarks, surgieron técnicas alternativas para evaluar la IA. Uno de ellos es ARC-AGI, que mantiene parte de su conjunto de datos privado para evitar que los modelos se adapten excesivamente a las pruebas, un fenómeno conocido como “overfitting”.

Por su parte, Yann LeCun, científico jefe de IA en Meta, impulsado el método LiveBench, un tipo de benchmark dinámico con preguntas renovadas cada 6 meses, ideado para medir tanto conocimiento como adaptabilidad.

La evaluación basada en preferencias humanas también gana terreno. Plataformas como LMarena permiten comparar respuestas de distintos modelos y seleccionar la más adecuada según el juicio de los usuarios.

No obstante, estos método también tienen limitaciones: los usuarios podrían preferir respuestas agradables, aunque sean incorrectas, incentivando a los modelos a suavizar sus respuestas y desvirtuar los resultados.

En el ámbito académico, la presión por obtener resultados notorios rápidamente generó una cultura hipercompetitiva. Durante la conferencia CVPR, un destacado profesor de la NYU, criticó esta dinámica usando la metáfora de los “juegos finitos e infinitos” del historiador James Carse.

Según el especialista, la investigación en IA se transformó en una carrera de corto plazo que prioriza la velocidad sobre el conocimiento profundo. “Si la academia elige jugar un juego finito, lo perderá todo”, advirtió en sus declaraciones.

La presión académica y la cultura hipercompetitiva dificultan la investigación profunda en inteligencia artificial (Imagen Ilustrativa Infobae)

Pese a los avances y la proliferación de nuevos benchmarks, la comunidad científica coincide en que aún no existe un sistema de evaluación integral que abarque todas las dimensiones relevantes de la inteligencia artificial.

Aspectos como la creatividad, la experiencia del usuario común y las habilidades interdisciplinarias siguen siendo difíciles de medir objetivamente. Al mismo tiempo, la fiabilidad y los peligros inherentes al uso de IA en contextos reales continúan generando preocupación.

Mediante la aparición de nuevos métodos y pruebas se refleja un cambio de enfoque en la industria, pero también la necesidad de mantener el escepticismo y promover la mejora continua. Mientras que la IA sigue evolucionando, la búsqueda de una evaluación justa, rigurosa y útil se mantiene como uno de los principales desafíos.

Evaluación de inteligencia artificial Creatividad en IA Benchmarks Inteligencia Artificial IA Tecnología Seguridad tecnológica OpenAI Gemini Newsroom BUE Magazines

Últimas Noticias

¿Por qué los mosquitos podrían ser la clave para descifrar la historia perdida de la humanidad?

Una investigación internacional muestra que el cambio de comportamiento en estos insectos puede iluminar capítulos olvidados y ofrecer nuevas herramientas para la paleoantropología

La NASA presentó el menú que tendrán los astronautas de Artemis II en su viaje a la Luna: platos inusuales y antojos pedidos por la tripulación

Durante los 10 días que dure la travesía en órbita alrededor de nuestro satélite natural, los viajeros espaciales podrán disfrutar de un suculento menú con las calorías necesarias para llevar adelante su trabajo

Descubren cómo el parásito de la malaria manipula el sistema inmunitario con vesículas de ARN

Científicos de Weizmann investigaron cómo el ARN de este parásito logra penetrar el núcleo de los monocitos humanos y unirse a proteínas clave del empalme, provocando que las transcripciones inmunitarias se editen erróneamente y se degraden antes de generar defensas

Misterios del cosmos: 5 hallazgos sobre agujeros negros que sorprenden a la ciencia

Nuevas observaciones y modelos revolucionan la comprensión del universo profundo. Cómo estos fenómenos inesperados abren preguntas inéditas sobre la estructura y el comportamiento de los objetos más extremos conocidos por la astronomía

Un nuevo hallazgo sugiere que el té de matcha podría influir en las vías cerebrales del estornudo alérgico

Investigadores japoneses probaron la bebida verde en polvo sobre síntomas respiratorios en ratones y detectaron cambios en la actividad neuronal ligados a la rinitis. ¿Un posible avance para aliviar las molestias desencadenadas por la alergia estacional?

MÁS NOTICIAS

IA en entornos reales: el gran reto ya no es el rendimiento, sino la fiabilidad

Innovadores métodos y herramientas buscan superar los límites de los sistemas clásicos. El MIT Technology Review informó con expertos que advierten sobre la importancia de valorar creatividad, fiabilidad y riesgos en tecnologías avanzadas

Crisis de evaluación: límites de los benchmarks tradicionales

Nuevos benchmarks y enfoques: hacia una evaluación más realista

Desafíos tecnológicos: creatividad y cultura de la investigación

Retos que persisten: riesgos y búsqueda de una evaluación integral

Últimas Noticias

¿Por qué los mosquitos podrían ser la clave para descifrar la historia perdida de la humanidad?

Una investigación internacional muestra que el cambio de comportamiento en estos insectos puede iluminar capítulos olvidados y ofrecer nuevas herramientas para la paleoantropología

La NASA presentó el menú que tendrán los astronautas de Artemis II en su viaje a la Luna: platos inusuales y antojos pedidos por la tripulación

Durante los 10 días que dure la travesía en órbita alrededor de nuestro satélite natural, los viajeros espaciales podrán disfrutar de un suculento menú con las calorías necesarias para llevar adelante su trabajo

Descubren cómo el parásito de la malaria manipula el sistema inmunitario con vesículas de ARN

Científicos de Weizmann investigaron cómo el ARN de este parásito logra penetrar el núcleo de los monocitos humanos y unirse a proteínas clave del empalme, provocando que las transcripciones inmunitarias se editen erróneamente y se degraden antes de generar defensas

Misterios del cosmos: 5 hallazgos sobre agujeros negros que sorprenden a la ciencia

Nuevas observaciones y modelos revolucionan la comprensión del universo profundo. Cómo estos fenómenos inesperados abren preguntas inéditas sobre la estructura y el comportamiento de los objetos más extremos conocidos por la astronomía

Un nuevo hallazgo sugiere que el té de matcha podría influir en las vías cerebrales del estornudo alérgico

Investigadores japoneses probaron la bebida verde en polvo sobre síntomas respiratorios en ratones y detectaron cambios en la actividad neuronal ligados a la rinitis. ¿Un posible avance para aliviar las molestias desencadenadas por la alergia estacional?

Alcaraz dice adiós a su racha de victorias tras caer en semifinales de Indian Wells ante Medvedev

Última hora de las elecciones de Castilla y León: la participación a las 11:30 sube un punto respecto a 2022

Procedente el despido de una limpiadora por ausencias reiteradas: en diez ocasiones abandonó su puesto entre 4 minutos a más de una hora antes

El dinero giró el timón

El último adiós a Gemma Cuervo en Madrid: sus hijos se unen frente al dolor y decenas de familiares y amigos se despiden de la actriz

'Cholo' Simeone: "El rendimiento colectivo está siendo superior"

Ucrania también boicoteará la Ceremonia de Clausura de los Juegos Paralímpicos de Invierno

Irán apela al "ojo por ojo" en su respuesta a los bombardeos de EEUU

Muere la actriz Gemma Cuervo a los 91 años

VÍDEO: Muere el filósofo alemán Jürgen Habermas a los 96 años de edad

ENTRETENIMIENTO

Desde golpes en vivo hasta escándalos de abuso: los actores que fueron expulsados de los Premios Oscar

Con Timothée Chalamet como su principal fan, Kylie Jenner da el gran salto y debuta en la pantalla grande

Sebastian Bach habló por primera vez sobre el episodio en que Christina Applegate dejó a Brad Pitt por él

Murió Phil Campbell, histórico guitarrista de Motörhead

Sarah Michelle Gellar habla sobre el futuro del remake de ‘Buffy la cazavampiros’: “Quería que lo escucharan de mí”

Crisis de evaluación: límites de los benchmarks tradicionales

Nuevos benchmarks y enfoques: hacia una evaluación más realista

Desafíos tecnológicos: creatividad y cultura de la investigación

Retos que persisten: riesgos y búsqueda de una evaluación integral

Temas Relacionados

Últimas Noticias

¿Por qué los mosquitos podrían ser la clave para descifrar la historia perdida de la humanidad?

Una investigación internacional muestra que el cambio de comportamiento en estos insectos puede iluminar capítulos olvidados y ofrecer nuevas herramientas para la paleoantropología

La NASA presentó el menú que tendrán los astronautas de Artemis II en su viaje a la Luna: platos inusuales y antojos pedidos por la tripulación

Durante los 10 días que dure la travesía en órbita alrededor de nuestro satélite natural, los viajeros espaciales podrán disfrutar de un suculento menú con las calorías necesarias para llevar adelante su trabajo

Descubren cómo el parásito de la malaria manipula el sistema inmunitario con vesículas de ARN

Científicos de Weizmann investigaron cómo el ARN de este parásito logra penetrar el núcleo de los monocitos humanos y unirse a proteínas clave del empalme, provocando que las transcripciones inmunitarias se editen erróneamente y se degraden antes de generar defensas

Misterios del cosmos: 5 hallazgos sobre agujeros negros que sorprenden a la ciencia

Nuevas observaciones y modelos revolucionan la comprensión del universo profundo. Cómo estos fenómenos inesperados abren preguntas inéditas sobre la estructura y el comportamiento de los objetos más extremos conocidos por la astronomía

Un nuevo hallazgo sugiere que el té de matcha podría influir en las vías cerebrales del estornudo alérgico

Investigadores japoneses probaron la bebida verde en polvo sobre síntomas respiratorios en ratones y detectaron cambios en la actividad neuronal ligados a la rinitis. ¿Un posible avance para aliviar las molestias desencadenadas por la alergia estacional?

Alcaraz dice adiós a su racha de victorias tras caer en semifinales de Indian Wells ante Medvedev

Última hora de las elecciones de Castilla y León: la participación a las 11:30 sube un punto respecto a 2022

Procedente el despido de una limpiadora por ausencias reiteradas: en diez ocasiones abandonó su puesto entre 4 minutos a más de una hora antes

El dinero giró el timón

El último adiós a Gemma Cuervo en Madrid: sus hijos se unen frente al dolor y decenas de familiares y amigos se despiden de la actriz

'Cholo' Simeone: "El rendimiento colectivo está siendo superior"

Ucrania también boicoteará la Ceremonia de Clausura de los Juegos Paralímpicos de Invierno

Irán apela al "ojo por ojo" en su respuesta a los bombardeos de EEUU

Muere la actriz Gemma Cuervo a los 91 años

VÍDEO: Muere el filósofo alemán Jürgen Habermas a los 96 años de edad

ENTRETENIMIENTO

Desde golpes en vivo hasta escándalos de abuso: los actores que fueron expulsados de los Premios Oscar

Con Timothée Chalamet como su principal fan, Kylie Jenner da el gran salto y debuta en la pantalla grande

Sebastian Bach habló por primera vez sobre el episodio en que Christina Applegate dejó a Brad Pitt por él

Murió Phil Campbell, histórico guitarrista de Motörhead

Sarah Michelle Gellar habla sobre el futuro del remake de ‘Buffy la cazavampiros’: “Quería que lo escucharan de mí”