Cómo una IA elevó su tasa de victorias al 82% en Batalla Naval

Investigadores del MIT y Harvard modificaron un sistema de inteligencia artificial para que formule preguntas más precisas y estratégicas, y con eso mejoró de forma marcada su desempeño en partidas cooperativas, una mejora con potencial en ciencia y medicina

Guardar
Google icon
Ilustración de vista superior de un tablero de Batalla Naval donde una mano humana y una mano robótica colocan fichas, con signos de interrogación y código
Un estudio del MIT y Harvard mostró que la inteligencia artificial mejora cuando aprende a investigar y a formular preguntas útiles en entornos inciertos (Imagen Ilustrativa Infobae)

Un equipo del Instituto Tecnológico de Massachusetts (MIT) y de la Universidad de Harvard mejoraron la forma en que un modelo de inteligencia artificial formula preguntas en el juego Batalla Naval y su tasa de victorias contra humanos subió del 8% al 82%, un avance que podría aplicarse a tareas más inciertas como el diagnóstico médico y el descubrimiento científico, informó el portal tecnológico TechXplore.

El trabajo, presentado en abril en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), parte de una dificultad concreta de los modelos de lenguaje: suelen responder bien a consultas complejas, pero no siempre saben investigar un problema cuando deben explorar muchas posibilidades en entornos inciertos. Ese obstáculo pesa especialmente en áreas donde no alcanza con contestar, sino que hay que buscar información útil paso a paso.

PUBLICIDAD

Para medir ese problema, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Harvard usaron Batalla Naval como banco de pruebas. El juego ya había sido utilizado por científicos cognitivos para estudiar cómo los humanos buscan información, razón por la que el equipo lo eligió para analizar cómo lo hacen los modelos de lenguaje.

Folleto digital con pantallas mostrando un cerebro, gráficos de datos, barcos en un mapa y un medidor de porcentaje del 8% al 82%, ilustrando el avance de una IA
Esta infografía ilustra cómo la inteligencia artificial del MIT y Harvard multiplicó su tasa de victorias en Batalla Naval del 8% al 82% al mejorar la formulación de preguntas (Imagen Ilustrativa Infobae)

Enseñar a los modelos a preguntar mejor

El equipo diseñó una versión en lenguaje natural llamada batalla naval colaborativa, en la que un participante actúa como capitán y formula preguntas sobre la ubicación de barcos ocultos, mientras otro cumple el papel de observador y responde sí o no en tiempo real.

PUBLICIDAD

Más de 40 personas jugaron esa versión y sus preguntas y respuestas sirvieron para construir BattleshipQA, un conjunto de datos que funcionó como referencia para evaluar modelos de frontera, como GPT-5, y otros más pequeños, como Llama 4 Scout.

Las pruebas mostraron que, sin entrenamiento previo específico, los mejores modelos podíanterminar la partida en menos turnos que los humanos, aunque los sistemas pequeños resultaban mucho menos racionales. El problema principal no era solo responder, sino formular preguntas útiles.

Para corregirlo, los investigadores incorporaron un método conocido como inferencia de Monte Carlo, que estima la probabilidad de que cada respuesta sea correcta entre distintas opciones. Con ese enfoque, los modelos comenzaron a elegir preguntas que revelaban más información sobre la posición de los barcos.

El caso más marcado fue el de Llama 4 Scout: antes de ese ajuste solo superaba a humanos en el 8% de las partidas y después llegó al 82%. Ese mismo enfoque le permitió superar a GPT-5 con un costo de cerca del 1% del modelo de vanguardia.

“Los modelos de lenguaje actuales están optimizados principalmente para responder a consultas complejas, pero no está tan claro si aprenden a formular buenas preguntas por sí mismos”, señaló Gabriel Grand, estudiante de doctorado e investigador del CSAIL y autor principal del artículo.

“Nuestro trabajo demuestra que formular preguntas informativas depende de la capacidad de predecir y simular el mundo. Descubrimos que cuando les damos a los agentes acceso a un ‘modelo del mundo’, formulan mejores preguntas y realizan descubrimientos de manera más eficiente”, agregó Grand.

Vista aérea de un tablero digital cuadriculado tipo Batalla Naval con barcos, líneas luminosas azul-verde y flechas que se ramifican desde un centro a casillas objetivo
La inferencia de Monte Carlo permitió que los modelos de inteligencia artificial eligieran preguntas más informativas sobre la posición de los barcos (Imagen Ilustrativa Infobae)

Convertir preguntas en código

El equipo también detectó una segunda brecha entre humanos y modelos: contestar con exactitud las preguntas del juego. GPT-5 se comportó como un observador fiable, pero los sistemas pequeños tendían a equivocarse al indicar dónde estaban los barcos.

La corrección consistió en traducir cada pregunta del capitán a código en Python, de modo que el observador pudiera verificarla mediante instrucciones explícitas. Si la pregunta era si había un barco en una zona concreta, el sistema ejecutaba una búsqueda rápida sobre ese espacio y comprobaba el ancho de la pieza digital.

Ese cambio elevó la precisión media en un 15%. En casos concretos, GPT-4o-mini mejoró casi un 30% y Claude 4 Opus sumó ocho puntos, de acuerdo con el medio.

“El sector ha tenido mucho éxito con las estrategias de ‘autoformalización’, en las que los modelos de lenguaje generan código para verificar sus soluciones”, indicó Jacob Andreas, profesor asociado de ingeniería eléctrica y ciencias de la computación e investigador principal de CSAIL.

El profesor sostuvo además que el resultado abre la posibilidad de usar estas técnicas para generar mejores soluciones desde el inicio y extenderlas a la programación y a la resolución de problemas matemáticos.

El mismo enfoque se probó después en el juego ¿Quién es quién?, donde los modelos debían descartar cien opciones hasta identificar un personaje oculto. Allí, Llama 4 Scout pasó del 30% al 72% de aciertos, mientras GPT-4o avanzó del 62% al 90%; en cada partida, GPT-5 actuó como observador para asegurar respuestas más precisas.

Primerísimo primer plano de una pantalla de computadora inclinada mostrando código ilegible en un editor oscuro. Fondo borroso con componentes electrónicos y un cable plano multicolor
La traducción de preguntas a código en Python aumentó la precisión de las respuestas de la IA y redujo errores en modelos pequeños (Imagen Ilustrativa Infobae)

Límites actuales y próximos pasos

Pese a esos avances, los investigadores señalaron que los modelos todavía tienen dificultades para responder preguntas complejas en comparación con los humanos. Valerio Pepe, investigador de OpenAI, graduado reciente de Harvard y coautor del estudio, sostuvo que GPT-5 puede vencer al jugador promedio de Batalla Naval y mejora ligeramente con estos métodos, pero que los jugadores expertos aún son difíciles de superar para todos los modelos.

El portal detalló que los autores interpretaron los resultados como una señal de que los agentes de IA todavía tienen potencial sin explotar para problemas de “aguja en un pajar”, es decir, escenarios en los que deben recorrer un espacio inmenso de opciones para encontrar una solución excepcional. El artículo menciona como ejemplo la identificación de la estructura molecular de un compuesto.

Aun así, los investigadores advirtieron que la batalla naval colaborativa aún es una prueba relativamente sencilla y que quieren llevar los modelos a entornos más complejos, donde deban considerar muchas más alternativas. Grand también prevé experimentos de colaboración entre humanos y sistemas de IA, además de ajustes finos en simulaciones de juegos y un uso mayor de capacidad de cómputo para ampliar la inferencia.

“A medida que los sistemas de IA se vuelven más autónomos, los problemas más difíciles resultan ser de índole social: encontrar puntos en común, resolver malentendidos y adaptarse a diferentes interlocutores con el tiempo”, señaló Robert Hawkins, profesor adjunto de lingüística en la Universidad de Stanford, que no participó en el artículo.

Hawkins añadió que el estudio “capta con elegancia estos fenómenos en un entorno colaborativo controlado y presenta argumentos convincentes de que el verdadero cuello de botella para los agentes de IA no es solo el cálculo de preguntas óptimas, sino el razonamiento pragmático necesario para sacar el máximo provecho de sus respuestas”.

PUBLICIDAD

PUBLICIDAD