
Un equipo del Instituto Tecnológico de Massachusetts (MIT) y de la Universidad de Harvard mejoraron la forma en que un modelo de inteligencia artificial formula preguntas en el juego Batalla Naval y su tasa de victorias contra humanos subió del 8% al 82%, un avance que podría aplicarse a tareas más inciertas como el diagnóstico médico y el descubrimiento científico, informó el portal tecnológico TechXplore.
El trabajo, presentado en abril en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), parte de una dificultad concreta de los modelos de lenguaje: suelen responder bien a consultas complejas, pero no siempre saben investigar un problema cuando deben explorar muchas posibilidades en entornos inciertos. Ese obstáculo pesa especialmente en áreas donde no alcanza con contestar, sino que hay que buscar información útil paso a paso.
PUBLICIDAD
Para medir ese problema, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Harvard usaron Batalla Naval como banco de pruebas. El juego ya había sido utilizado por científicos cognitivos para estudiar cómo los humanos buscan información, razón por la que el equipo lo eligió para analizar cómo lo hacen los modelos de lenguaje.

Enseñar a los modelos a preguntar mejor
El equipo diseñó una versión en lenguaje natural llamada batalla naval colaborativa, en la que un participante actúa como capitán y formula preguntas sobre la ubicación de barcos ocultos, mientras otro cumple el papel de observador y responde sí o no en tiempo real.
PUBLICIDAD
Más de 40 personas jugaron esa versión y sus preguntas y respuestas sirvieron para construir BattleshipQA, un conjunto de datos que funcionó como referencia para evaluar modelos de frontera, como GPT-5, y otros más pequeños, como Llama 4 Scout.
Las pruebas mostraron que, sin entrenamiento previo específico, los mejores modelos podíanterminar la partida en menos turnos que los humanos, aunque los sistemas pequeños resultaban mucho menos racionales. El problema principal no era solo responder, sino formular preguntas útiles.
PUBLICIDAD
Para corregirlo, los investigadores incorporaron un método conocido como inferencia de Monte Carlo, que estima la probabilidad de que cada respuesta sea correcta entre distintas opciones. Con ese enfoque, los modelos comenzaron a elegir preguntas que revelaban más información sobre la posición de los barcos.
El caso más marcado fue el de Llama 4 Scout: antes de ese ajuste solo superaba a humanos en el 8% de las partidas y después llegó al 82%. Ese mismo enfoque le permitió superar a GPT-5 con un costo de cerca del 1% del modelo de vanguardia.
PUBLICIDAD
“Los modelos de lenguaje actuales están optimizados principalmente para responder a consultas complejas, pero no está tan claro si aprenden a formular buenas preguntas por sí mismos”, señaló Gabriel Grand, estudiante de doctorado e investigador del CSAIL y autor principal del artículo.
“Nuestro trabajo demuestra que formular preguntas informativas depende de la capacidad de predecir y simular el mundo. Descubrimos que cuando les damos a los agentes acceso a un ‘modelo del mundo’, formulan mejores preguntas y realizan descubrimientos de manera más eficiente”, agregó Grand.
PUBLICIDAD

Convertir preguntas en código
El equipo también detectó una segunda brecha entre humanos y modelos: contestar con exactitud las preguntas del juego. GPT-5 se comportó como un observador fiable, pero los sistemas pequeños tendían a equivocarse al indicar dónde estaban los barcos.
La corrección consistió en traducir cada pregunta del capitán a código en Python, de modo que el observador pudiera verificarla mediante instrucciones explícitas. Si la pregunta era si había un barco en una zona concreta, el sistema ejecutaba una búsqueda rápida sobre ese espacio y comprobaba el ancho de la pieza digital.
PUBLICIDAD
Ese cambio elevó la precisión media en un 15%. En casos concretos, GPT-4o-mini mejoró casi un 30% y Claude 4 Opus sumó ocho puntos, de acuerdo con el medio.
“El sector ha tenido mucho éxito con las estrategias de ‘autoformalización’, en las que los modelos de lenguaje generan código para verificar sus soluciones”, indicó Jacob Andreas, profesor asociado de ingeniería eléctrica y ciencias de la computación e investigador principal de CSAIL.
PUBLICIDAD
El profesor sostuvo además que el resultado abre la posibilidad de usar estas técnicas para generar mejores soluciones desde el inicio y extenderlas a la programación y a la resolución de problemas matemáticos.
El mismo enfoque se probó después en el juego ¿Quién es quién?, donde los modelos debían descartar cien opciones hasta identificar un personaje oculto. Allí, Llama 4 Scout pasó del 30% al 72% de aciertos, mientras GPT-4o avanzó del 62% al 90%; en cada partida, GPT-5 actuó como observador para asegurar respuestas más precisas.
PUBLICIDAD

Límites actuales y próximos pasos
Pese a esos avances, los investigadores señalaron que los modelos todavía tienen dificultades para responder preguntas complejas en comparación con los humanos. Valerio Pepe, investigador de OpenAI, graduado reciente de Harvard y coautor del estudio, sostuvo que GPT-5 puede vencer al jugador promedio de Batalla Naval y mejora ligeramente con estos métodos, pero que los jugadores expertos aún son difíciles de superar para todos los modelos.
El portal detalló que los autores interpretaron los resultados como una señal de que los agentes de IA todavía tienen potencial sin explotar para problemas de “aguja en un pajar”, es decir, escenarios en los que deben recorrer un espacio inmenso de opciones para encontrar una solución excepcional. El artículo menciona como ejemplo la identificación de la estructura molecular de un compuesto.
Aun así, los investigadores advirtieron que la batalla naval colaborativa aún es una prueba relativamente sencilla y que quieren llevar los modelos a entornos más complejos, donde deban considerar muchas más alternativas. Grand también prevé experimentos de colaboración entre humanos y sistemas de IA, además de ajustes finos en simulaciones de juegos y un uso mayor de capacidad de cómputo para ampliar la inferencia.
“A medida que los sistemas de IA se vuelven más autónomos, los problemas más difíciles resultan ser de índole social: encontrar puntos en común, resolver malentendidos y adaptarse a diferentes interlocutores con el tiempo”, señaló Robert Hawkins, profesor adjunto de lingüística en la Universidad de Stanford, que no participó en el artículo.
Hawkins añadió que el estudio “capta con elegancia estos fenómenos en un entorno colaborativo controlado y presenta argumentos convincentes de que el verdadero cuello de botella para los agentes de IA no es solo el cálculo de preguntas óptimas, sino el razonamiento pragmático necesario para sacar el máximo provecho de sus respuestas”.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Assassin’s Creed Syndicate con 75% de descuento en Ubisoft por tiempo limitado: cómo conseguirlo
Esta versión del juego transcurre en Londres, durante la Revolución Industrial y sigue la historia de los gemelos Jacob y Evie Frye

Así opera el gusano de IA que adapta cada ciberataque al dispositivo que infecta
Una investigación de la Universidad de Toronto puso a prueba, en un laboratorio digital cerrado, un prototipo capaz de analizar defensas, ajustar su estrategia y replicarse de una máquina a otra hasta tomar el control de una red completa

Ahorra tiempo en ChatGPT: la IA ahora recuerda tus datos aunque inicies una nueva conversación
La herramienta de OpenAI ahora cuenta con la capacidad de recordar, por ejemplo, si eres vegetariano o si tienes un viaje próximamente
SEGA, empresa detrás de Tetris, prepara consola de juegos: pantalla OLED y competencia de PlayStation Vita
El dispositivo contaría con almacenamiento interno reducido y recurriría a cartuchos físicos intercambiables

Precio de ethereum, bitcoin y otras principales criptomonedas para este sábado 6 de junio
Estos han sido los movimientos de las criptomonedas en las últimas horas




