
OpenAI ha presentado su nuevo modelo de generación de imágenes ChatGPT Images 2.0, que llega con nuevas capacidades de procesamiento, mayor precisión y mejoras a la hora de generar texto, además de poder buscar contenido en Internet y verificar sus resultados gracias a su razonamiento, generando hasta ocho imágenes relacionadas a la vez.
La compañía ha dado a conocer el sucesor de ChatGPT Images y se ha referido a este modelo como un "cambio radical" en cuanto al seguimiento de instrucciones detalladas, la colocación de elementos y la relación precisa entre objetos.
Concretamente, OpenAI ha lanzado ChatGPT Images 2.0 como un "modelo de vanguardia" capaz de realizar tareas visuales complejas y producir imágenes "precisas y listas para usar", como ha compartido en un comunicado en su blog.
Esto se debe a que no solo permite conceptualizar imágenes más sofisticadas, sino que también las genera de forma más eficaz, siguiendo las instrucciones de los usuarios con más fidelidad, conservando los detalles solicitados y renderizando los elementos más sutiles que suelen provocar fallos, como los textos pequeños, los iconos, interfaces de usuario en un ordenador o composiciones densas con mucho detalle, con una resolución de hasta 2K.
Asimismo, ha subrayado mejoras notables en la capacidad de generar contenido en diferentes formatos y, sobre todo, a la hora de representar texto denso. Además, ahora es más preciso creando imágenes en cualquier idioma, no solo en inglés, y utiliza "conocimiento visual y del mundo" para completar la información faltante.
Siguiendo esta línea, ha detallado igualmente que también ha mejorado su comprensión multilingüe más allá de idiomas con alfabeto latino, por lo que genera mejores resultados en idiomas como el japonés, coreano, chino, hindi y bengalí.
CAPACIDAD DE RAZONAMIENTO Y BÚSQUEDA EN LA WEB
Otro aspecto a resaltar es que, por primera vez para un modelo de generación de imágenes, OpenAI ha introducido capacidad de razonamiento. Como resultado, ChatGPT Images 2.0 puede buscar información real en la web, utilizar esta información para crear imágenes distintas a partir de una sola indicación y, finalmente, verificar sus resultados para comprobar si son correctos.
Como ha explicado la tecnológica, esta capacidad permite que el modelo simplifique el proceso entre la idea y la imagen actuando como un asistente visual, "especialmente cuando la precisión, la información actualizada, la coherencia y la cohesión visual son fundamentales".
Es decir, a partir del contenido compartido por los usuarios y el hallado en la web, el modelo identifica qué datos son importantes, los estructura y transforma esta información en materiales gráficos con sentido de forma autónoma.
Esta característica resulta útil, por ejemplo, a la hora de generar contenido gráfico educativo o resúmenes visuales, ya que el modelo puede sintetizar la información por sí mismo, escribir una historia y presentarla con una estructura clara y un fuerte flujo visual.
Así, los usuarios pueden solicitar un conjunto de imágenes coherente entre sí, obteniendo hasta ocho resultados de una sola vez. Por ejemplo, para la creación de un cómic con continuidad de personajes, una infografía o mapas precisos.
IMÁGENES MÁS REALISTAS
OpenAI ha también ha resaltado que Images 2.0 también ha mejorado en la generación de imágenes realistas. Por ejemplo, a la hora de recrear una fotografía, incluye las pequeñas imperfecciones habituales de estas imágenes para aportar más realismo.
Igualmente, en otras imágenes fijas como pixel art o manga, cuenta con mayor consistencia en la textura, iluminación o composición. También ofrece mayor flexibilidad de formato con relaciones de aspecto de hasta 3:1 y 1:3, para contenido de pósters, pantallas de móviles u ordenadores.
Como resultado, los usuarios obtendrán imágenes mejoradas y más definidas de 'collages', mangas escritos en japonés de forma coherente, prototipos de videojuegos o fotografías con un estilo concreto realista. También podrán generar material publicitario y guiones gráficos.
Con todo ello, ChatGPT Images 2.0 ya está disponible para todos los usuarios de ChatGPT y Codex, aunque las funciones avanzadas de análisis están disponibles únicamente para los usuarios suscritos a las versiones ChatGPT Plus, Pro y Business. Asimismo, el nuevo modelo también está disponible en la API.