OpenAI lanza ChatGPT Images 2.0 con imágenes de alta resolución y texto claro dentro de la imagen

El sistema permite incluso generar capturas de pantalla realistas o maquetas de interfaces digitales

Guardar
OpenAI - ChatGPT Images 2.0 - IA - tecnología - 22 de abril
OpenAI ha dividido ChatGPT Images 2.0 en dos versiones para adaptarse a distintos usos. (Composición Infobae: AP /Michael Dwyer / OpenAI)

OpenAI lanza ChatGPT Images 2.0 con imágenes de alta resolución y texto claro dentro de la imagen. La nueva versión del generador de imágenes de la compañía resuelve uno de los problemas históricos de la inteligencia artificial generativa: la incapacidad para reproducir texto legible y coherente en los diseños.

ChatGPT Images 2.0 marca un salto técnico en el sector, permitiendo la creación de contenido gráfico complejo con precisión en la tipografía y múltiples opciones de formato.

Avances en generación de imágenes: texto preciso y realismo visual

Durante mucho tiempo, las IA generativas lucharon por plasmar textos o logotipos de forma correcta en las imágenes. Errores en la tipografía, letras desordenadas o incluso la incapacidad de mantener frases completas eran habituales. OpenAI ha superado este escollo con Images 2.0, que es capaz de crear desde etiquetas simples hasta bloques extensos de texto con un nivel de detalle que se acerca al de un diseño profesional.

ChatGPT Images 2.0 marca un salto técnico en el sector, permitiendo la creación de contenido gráfico complejo. 

OPENAI
ChatGPT Images 2.0 marca un salto técnico en el sector, permitiendo la creación de contenido gráfico complejo. OPENAI

El sistema permite incluso generar capturas de pantalla realistas o maquetas de interfaces digitales, ampliando el rango de aplicaciones posibles.

La resolución máxima alcanza los 2K y el modelo acepta instrucciones para producir hasta ocho imágenes coherentes entre sí, lo que facilita la elaboración de storyboards, cómics, campañas publicitarias o materiales editoriales complejos.

Además, Images 2.0 incorpora soporte para alfabetos no latinos, como japonés, chino, hindi y coreano, logrando reproducir caracteres con precisión y evitando la distorsión visual que aquejaba a versiones anteriores.

OpenAI - ChatGPT Images 2.0 - IA - tecnología - 22 de abril
Images 2.0 incorpora soporte para alfabetos no latinos, como japonés, chino, hindi y coreano. (Captura OpenAI)

Dos modos de funcionamiento: Instant y Thinking para diferentes necesidades

OpenAI ha dividido ChatGPT Images 2.0 en dos versiones para adaptarse a distintos usos. El modo Instant está orientado a la generación rápida de imágenes para tareas cotidianas, ofreciendo resultados inmediatos y funcionalidad básica.

Por otro lado, el modo Thinking, que está disponible solo para suscriptores de pago, introduce la capacidad de razonar sobre la petición antes de generar la imagen, consultar información actualizada en la web y verificar el contenido.

Este segundo modo resulta especialmente útil para crear infografías con datos recientes o diseños que requieren precisión en logotipos y cifras, aunque su procesamiento es más lento.

La diferencia entre ambos modos radica en la profundidad de análisis y en la posibilidad de obtener imágenes basadas en información en tiempo real, una novedad relevante para quienes buscan exactitud en proyectos editoriales o gráficos.

OpenAI ha dividido ChatGPT Images 2.0 en dos versiones para adaptarse a distintos usos.

REUTERS/Dado Ruvic
OpenAI ha dividido ChatGPT Images 2.0 en dos versiones para adaptarse a distintos usos. REUTERS/Dado Ruvic

Acceso y aplicaciones de ChatGPT Images 2.0

Desde hoy, ChatGPT Images 2.0 está disponible para todos los usuarios de la plataforma, con el modo Thinking reservado a cuentas de pago. Los desarrolladores también pueden acceder al modelo a través de la API, pagando según la resolución y calidad de imagen solicitada.

Además, OpenAI ha anunciado la integración del modelo en Codex, su aplicación para desarrolladores en Mac, ampliando así el ecosistema de herramientas disponibles para el diseño asistido por inteligencia artificial.

El lanzamiento de Images 2.0 representa un salto en la calidad y utilidad de la generación de imágenes por IA, facilitando la producción de materiales visuales sofisticados, revistas, secuencias narrativas y contenido multilingüe con una precisión inédita hasta la fecha.

Mano sosteniendo un teléfono móvil con la pantalla mostrando el logo de Gemini de Google.
Imagen 3 es el modelo de inteligencia artificial de Google más avanzado para generar imágenes fotorrealistas a partir de descripciones de texto (text-to-image). (Imagen Ilustrativa Infobae)

Así funcionan las nuevas herramientas de generación y edición de imágenes en Gemini

Gemini ha experimentado una notable evolución al integrar herramientas avanzadas para la generación y edición de imágenes directamente desde el chat. El motor responsable de este avance es Imagen 3, el sistema de creación visual más sofisticado desarrollado por Google hasta el momento.

Gracias a esta tecnología, los usuarios pueden crear contenido visual sin salir de la plataforma: basta con escribir una descripción detallada de la imagen deseada para que Gemini ofrezca varias opciones, abarcando desde ilustraciones artísticas hasta imágenes fotorealistas.

Las funciones de Gemini permiten personalizar el resultado final ajustando el estilo artístico, la relación de aspecto, el nivel de detalle y la iluminación de la imagen. De este modo, es posible obtener creaciones que respondan con precisión a las preferencias del usuario. Además, la herramienta facilita la edición posterior, permitiendo modificar colores, iluminación u otros elementos, o generar variaciones a partir de una imagen ya creada.

En cuanto a la seguridad y la transparencia, Google ha incorporado principios de IA responsable en el desarrollo de Imagen 3. Por ejemplo, todas las imágenes generadas incluyen marcas de agua digitales invisibles, utilizando la tecnología SynthID, que permiten identificar su origen y así promover la confianza en los contenidos digitales.