PROJECT GENIE, un modelo experimental de inteligencia artificial lanzado por Google en enero, es un logro técnico asombroso. Dale una indicación a la herramienta —una imagen, por ejemplo, o un breve fragmento de texto— y generará un mundo interactivo para que el usuario lo explore. Escribe una solicitud sencilla y el resultado es una simulación realista. En cambio, si empiezas con un cuadro de Georges Seurat, podrás pasear un domingo por el parque con un estilo puntillista perfecto.
Project Genie puede parecer un videojuego, pero sus creadores afirman que es algo mucho más profundo. Lo llaman “modelo del mundo”, una herramienta esencial para ayudar a los sistemas de IA a comprender los complejos e impredecibles espacios físicos en los que muchos trabajarán. La compañía argumenta que un futuro en el que robots humanoides vayan a las tiendas a comprar ingredientes antes de cocinar, o coches autónomos que circulen por carreteras rurales, no sería posible sin modelos del mundo.
El concepto se remonta a un libro de 1943 de Kenneth Craik, un psicólogo escocés que sugirió que los organismos llevaban un “modelo a pequeña escala” del mundo en su cabeza para probar hipótesis antes de llevarlas a cabo en la realidad. Comprender cómo funciona el mundo es necesario antes de planificar cómo cambiarlo. Sin una comprensión, cualquier ser vivo se vería obligado a una vida puramente reactiva: estremecerse ante el dolor, buscar alimento y poco más.
Dotar de esa misma capacidad a los sistemas de IA era un área de investigación prometedora ya en la década de 1990, antes de que los grandes modelos de lenguaje (LLM) acapararan la atención del mundo. Ahora esa atención ha vuelto.
Se están explorando tres enfoques principales para construir modelos del mundo. Un punto de partida natural son los generadores de vídeo de IA. Generar un vídeo coherente depende de la simulación de un mundo coherente: si las leyes de la realidad cambian entre fotogramas, el resultado carecería de sentido. Estos modelos de mundo rudimentarios pueden completar detalles del mundo más allá de lo que se les ha proporcionado: si se le da la imagen de un laberinto, podrá dibujar una ruta a través de él; si se le presenta la foto de unas manos sosteniendo un frasco, modelará con precisión los movimientos necesarios para abrirlo.
Project Genie es la culminación de este enfoque. Su utilidad se hace evidente al imaginarlo con una IA diferente —un comerciante robótico, por ejemplo— que intenta aprender a operar en el mundo físico. Los miles de millones de horas de datos de entrenamiento esenciales para tal tarea serían mucho más difíciles de obtener del mundo real que de un modelo capaz de simular el entorno. Y, si las simulaciones son lo suficientemente precisas, el sistema puede usar los datos para entrenarse a sí mismo.
Pero ni siquiera el vídeo más realista del mundo puede capturar todos los detalles que una persona percibiría. Por ejemplo, el congelador roto al fondo de la tienda, que pudre el pescado fresco, no se graba en cámara, ni tampoco el olor asociado. Incluso los objetos que no son directamente visibles quedan fuera de ella. Por ejemplo, al generar el contenido de un pasillo, los contiguos no existen para el modelo hasta que el usuario entra en ellos, esto dificulta la simulación de entornos complejos o la posibilidad de que varios usuarios se muevan en el mismo modelo.
Otro enfoque para la creación de modelos del mundo, por lo tanto, busca crear entornos completamente 3D en lugar de simulaciones 2D. Fei Fei Li, científica informática de la Universidad de Stanford, lidera un enfoque que denomina inteligencia espacial. En su opinión, los modelos del mundo deben ser interactivos, multimodales (capaces de interpretar indicaciones) y consistentes. Los sistemas basados en vídeo pueden superar los dos primeros obstáculos, pero presentan dificultades en el tercero. Project Genie, por ejemplo, se ejecuta durante un máximo de 60 segundos antes de que sus simulaciones comiencen a fallar.
La startup del Dr. Li, World Labs, ha creado un modelo de mundo llamado Marble que puede crear versiones digitales de mundos 3D con coherencia interna y completos. Esto significa que es posible, por ejemplo, tener varios usuarios dentro del mismo mundo. Además, los espacios no se alucinan de nuevo cada vez que el usuario mira a su alrededor, sino que se crean en su totalidad desde el principio. World Labs está presentando su producto a arquitectos, quienes podrían usarlo para imaginar un espacio y explorarlo virtualmente antes de imprimirlo en una impresora 3D.
Yann LeCun, ex científico jefe de IA de Meta, cree que los modelos de mundo pueden construirse de una manera diferente, menos literal. Para él, centrarse en espacios reales es una distracción. Después de todo, muchas IA tendrán que navegar por laberintos virtuales como sistemas de recursos humanos o documentos legales en lugar de espacios físicos como tiendas. Cree que dotar a las IA de las herramientas para modelar entornos de ambos tipos de forma consistente es un paso importante para que sean útiles. En su opinión, una IA podría usar un LLM para interactuar con dicho modelo del mundo y así ayudarle a realizar tareas, ya sea en el mundo real o en un ordenador.
Este enfoque, denominado Arquitectura Predictiva de Integración Conjunta (JEPA), permitiría a una IA simular características complejas del mundo real. Los modelos del mundo existentes se centran en lo que está a punto de suceder, en lugar de en eventos que podrían (o no) ocurrir en un futuro lejano. Los humanos pensamos en el futuro constantemente: previendo el tiempo antes de decidir si salir de casa con paraguas; considerando el riesgo de llegar tarde a una reunión importante al elegir qué tren tomar; etc. Fundamentalmente, estas decisiones se pueden tomar rápidamente, sin necesidad de visualizar cada segundo del día. Los modelos del mundo actuales no tienen ese atajo.
El Dr. LeCun ha estado explorando el potencial de un sistema JEPA desde 2022, y en noviembre de 2025 dejó Meta para dedicarse por completo a este problema. Su startup, Advanced Machine Intelligence, planea convertir sus ideas en realidad, comenzando con una colaboración con Nabla, una startup de tecnología sanitaria. Explica que el objetivo es un sistema que utilice su propio modelo de mundo para determinar «qué secuencia de acciones realizará de forma óptima la tarea que estoy planteando».
Pero ¿y si estos enfoques complejos fueran superfluos? Si los sistemas de IA generativa existentes ya pueden realizar tareas útiles en el mundo real, tal vez ya contengan algún tipo de modelo del mundo. Esa es la opinión de Ilya Sutskever, cofundador de OpenAI, y de muchos de sus antiguos colegas que aún trabajan en el laboratorio. Entrenar un modelo lingüístico extenso no es más que, según afirmó en 2023, “aprender un modelo del mundo”. Comprimir toda la información de internet en unos pocos cientos de gigabytes de números solo es posible si un sistema “aprende” los principios subyacentes de esa información.
Un nuevo y fantástico punto de vista
Hay indicios de que podría tener razón. En 2023, se demostró que un modelo lingüístico entrenado con una lista de movimientos del juego Othello reflejaba el estado del tablero en su propia red neuronal, a pesar de no haber visto nunca un tablero de Othello ni haber conocido las reglas del juego. Era una representación lo suficientemente detallada como para que los investigadores pudieran identificar partes específicas de la red neuronal que almacenaban el color de las piezas individuales. Eso significaba que podían realizar ajustes específicos para cambiar su percepción del juego, un nivel de control sin precedentes sobre los cálculos de un LLM.
Es probable que los modelos de lenguaje más grandes contengan modelos de mundo más complejos en su interior, si tan solo los investigadores pudieran encontrarlos. Anthropic, un laboratorio de IA, ha liderado la investigación sobre la “interpretabilidad” de sus modelos Claude, encontrando grupos de neuronas artificiales que corresponden a cualquier cosa, desde sentimientos de culpa hasta el puente Golden Gate. Y al acceder a ellos y modificarlos, como en el ejemplo de Otelo, se producen cambios correspondientes en el comportamiento posterior de esos modelos. Esto sugiere que los sistemas no se limitan a encadenar palabras: poseen una comprensión consistente de las características físicas del mundo real, a la que recurren para responder preguntas. Suena sospechosamente parecido a lo que se esperaría de un modelo de mundo interno.
No todos están de acuerdo. Los LLM, argumenta la Dra. Li, son simplemente “creadores de palabras en la oscuridad”. Ser capaz de usar el lenguaje para describir el mundo, afirma, no significa que tengan una comprensión sólida del mismo. Como un estudiante que solo ha leído sobre un país extranjero, hay un conocimiento que falta y que no se puede remendar con libros, dice. Sea cual sea el enfoque que resulte más efectivo, no cabe duda de que la IA está a punto de visitar el mundo real.
© 2026, The Economist Newspaper Limited. All rights reserved.