Un equipo de investigadores de Nvidia y diversas universidades, como Stanford y Berkeley, llevó a cabo un experimento en el que le mostraron capítulos de la famosa serie animada Tom y Jerry a una inteligencia artificial.
El objetivo fue observar si la IA sería capaz de generar nuevas escenas basadas en la animación original. Para ello, los investigadores utilizaron “prompts”, es decir, indicaciones detalladas y descriptivas, para guiar el proceso de creación de las escenas.
La inteligencia artificial logró generar secuencias de hasta un minuto con tres segundos en las que los personajes de Tom y Jerry realizaban diversas actividades, como las clásicas persecuciones, Jerry comiendo queso o Tom intentando entrar al agujero en el que se esconde su rival.

Los investigadores utilizaron descripciones minuciosas para instruir a la inteligencia artificial, detallando elementos clave como el entorno y las acciones de los personajes. Un ejemplo de los prompts utilizados es el siguiente:
“La cocina está ordenada, con paredes pintadas de amarillo suave y un suelo de baldosas a cuadros blancos y azul pálido. En el centro se encuentra una mesa rectangular de madera teñida de marrón. Jerry, el ratón marrón, está sentado erguido sobre la mesa, sosteniendo un pequeño bloque de queso amarillo con ambas patas. La cámara permanece fija, captando la amplia sonrisa de Jerry mientras se lleva el queso a la boca y da un gran mordisco con alegría”.
Estos detalles permitieron que la IA generara escenas que no solo replicaban la estética de la serie, también captaban el dinamismo de los personajes.

Este avance abre nuevas posibilidades en el campo de la inteligencia artificial aplicada a la creación de contenido visual, ya que muestra cómo los modelos de IA pueden aprender de los detalles de animaciones y generar escenas complejas a partir de instrucciones textuales muy específicas.
“La eficiencia de nuestra implementación también se puede mejorar. Solo hemos experimentado con vídeos de un minuto debido a limitaciones de recursos, pero el enfoque se puede extender a vídeos más largos e historias más complejas”, indican los investigadores.
Qué defectos se identificaron en las escenas
Aunque los resultados obtenidos parecen prometedores, los investigadores señalaron que existen tres áreas clave que deben mejorarse para generar videos de mayor calidad con inteligencia artificial. “Los videos de un minuto generados demuestran un claro potencial como prueba de concepto, pero aún presentan artefactos notables”, indicaron. Las áreas que requieren mejoras son las siguientes:
- Consistencia temporal: Los cuadros muestran una transformación abrupta entre segmentos de tres segundos dentro de la misma escena.
- Naturalidad del movimiento: En algunas ocasiones, el queso flota en el aire en lugar de caer de manera natural al suelo.
- Estética: La iluminación de la cocina se vuelve drásticamente más brillante cuando Tom se da la vuelta.

Por qué la IA es capaz de generar escenas de Tom y Jerry
La inteligencia artificial es capaz de generar escenas de Tom y Jerry gracias a una técnica avanzada llamada Entrenamiento en Tiempo de Prueba (TTT). Este enfoque permite que las redes neuronales sean más expresivas, mejorando la generación de contenido visual.
Al agregar capas TTT a un Transformer preentrenado, la IA puede crear videos de un minuto a partir de guiones gráficos de texto. En un experimento, se utilizó un conjunto de datos basado en los dibujos animados de Tom y Jerry.
Comparado con otros métodos como Mamba 2 o Gated DeltaNet, las capas TTT produjeron videos mucho más coherentes y capaces de contar historias complejas. Esto se comprobó mediante una evaluación humana, donde los videos generados por TTT superaron a otros métodos por una ventaja de 34 puntos Elo en una prueba con 100 videos.
Elo es un sistema de puntuación utilizado para medir el nivel relativo de habilidad entre competidores, originado en ajedrez. En este contexto, se aplica para evaluar la calidad de los videos generados por inteligencia artificial.
Últimas Noticias
Criptomonedas: cuál es el precio de ethereum este 16 de noviembre
Ethereum fue lanzada en 2015 por el programador Vitalik Buterin, con la intención de impulsar una herramienta para aplicaciones descentralizadas y colaborativas

Cómo ha cambiado el valor de la criptomoneda bitcoin en el último día
El bitcoin fue creado por Satoshi Nakamoto en el 2008 y arrancó sus operaciones oficialmente el 3 de enero de 2009 con “el bloque de génesis” de 50 monedas

Este es el valor de la criptomoneda tether este 16 de noviembre
Fue la primera moneda virtual de tipo stablecoin que se dio a conocer y actualmente es la tercera más usada

Ranking de YouTube en Colombia: la lista de los 10 videos musicales más reproducidos hoy
Google compró YouTube en el 2006 por un valor de 1650 millones de dólares; en ese entonces se visualizaban 100 millones de videos al día

Lista de los 10 videos más populares hoy en YouTube Argentina
YouTube, la plataforma de videos más famosa del mundo, genera alrededor de 15 mil millones de dólares al trimestre y al día son reproducidos alrededor de 5 mil millones de clips




