ChatGPT: esta es la nueva forma de darle instrucciones con voz e imágenes

Los usuarios podrán tomar fotos de su entorno y hacer solicitudes según esos contenidos

Compartir
Compartir articulo
El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)
El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)

Los usuarios de ChatGPT tiene acceso a una nueva forma de diálogo con la plataforma, agregando contenido en imágenes y en audio, lo que permitirá una interacción mucho más profunda con el chatbot

A través de una actualización, OpenAI agregará estas funciones, haciendo más conversacional a la aplicación con diálogos más naturales y menos esquemáticos, para que no todo se centre en preguntas y respuestas rígidas.

Este avance se ha logrado gracias a un nuevo modelo de texto a voz que puede generar audio que suena similar al de un ser humano. Este modelo se basa en cadenas de texto respaldadas por breves fragmentos de voz de actores de doblaje profesionales.

La colaboración con estos expertos ha dado como resultado cinco voces diferentes que los usuarios pueden elegir para darle vida a sus interacciones con ChatGPT.

Mejoras de voz en ChatGPT

La incorporación de capacidades de voz a ChatGPT permitirá a los usuarios interactuar de una manera más intuitiva. Entre las aplicaciones prácticas de esta función, se encuentra la posibilidad de solicitar cuentos para los niños, resolver debates en la mesa o simplemente disfrutar de una conversación casual con un asistente virtual.

Para comenzar a utilizar la voz, los usuarios pueden dirigirse a la configuración de la aplicación móvil y seleccionar Nuevas Funciones. Luego, podrán optar por participar en conversaciones de voz. Una vez habilitada esta opción, deben tocar el botón de auriculares en la esquina superior derecha de la pantalla de inicio y elegir su voz preferida entre las cinco disponibles.

El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)
El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)

Cómo se integrarán las imágenes

OpenAI también ha introducido la capacidad para responder a solicitudes que incluyan imágenes. Esto abre las posibilidades para los usuarios, ya que ahora pueden proporcionar a ChatGPT una o varias imágenes como referencia.

Por ejemplo, los usuarios pueden tomar una foto de un problema en su casa, como una parrilla que no funciona, y pedir al chatbot que les ayude a solucionarlo o tomar una imagen de los ingredientes que hay en la despensa y pedir ayuda para hacer recetas. Además, la plataforma puede analizar gráficos complejos para datos relacionados con el trabajo.

Para enfocarse en partes específicas de las imágenes, OpenAI ha incluido una “herramienta de dibujo” en la aplicación. Allí es posible resaltar áreas específicas en las imágenes y guiar la atención hacia esos detalles.

“Hacer una fotografía de un punto de referencia mientras se viaja y tener una conversación sobre los lugares interesantes por conocer. Después de la cena, ayudar a su hijo con un problema de matemáticas, tomándole una fotografía, rodeando el conjunto de problemas y pidiéndole que comparta pistas con ambos”, fueron otros ejemplos prácticos que OpenAI compartió sobre esta novedad.

Estas capacidades de voz e imagen estarán disponibles en las próximas dos semanas para los suscriptores de los servicios Plus y Enterprise de ChatGPT. Si bien el servicio Plus tiene un costo mensual de 20 dólares, el servicio Enterprise ha sido diseñado para satisfacer las necesidades de los clientes comerciales.

El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)
El chatbot contará con cinco voces humanas para conversar con el usuario. (Pexels)

Dall-E 3 se incorpora a ChatGPT

OpenAI presentó la tercera versión de su inteligencia artificial para generar imágenes a partir de texto, la cual llega con varias mejoras y nuevas características. Entre las cuales se destaca que DALL-E 3 ahora se integra de forma nativa en ChatGPT, permitiendo a los usuarios crear mejores prompts, solicitud o instrucción dada a un modelo de IA para que genere una respuesta, directamente desde el chatbot.

De acuerdo con la startup de Sam Altman, esta herramienta evoluciona considerablemente en comparación con su predecesora a la hora de interpretar las solicitudes de los usuarios. De hecho, al producir una imagen se podrá pedirle a al sistema de chat que la genere o que cree una indicación más extensa y detallada, que permitirá que DALL-E 3 la interprete mejor y ofrezca resultados más precisos.

Además, también dejará que los usuarios tengan la posibilidad de perfeccionar una creación como si estuvieran pidiendo cambios a un artista, gracias a esta integración con ChatGPT, que comprende mejor cómo debe componer una escena y cuál es la vinculación entre los elementos que forman parte de la misma.