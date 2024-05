A pesar del parecido de la voz, OpenAI asegura que se trata de una actriz de voz que trabajó para la compañía. (REUTERS/Sarah Meyssonnier)

OpenAI ha tomado la decisión de pausar el uso de una de las voces de ChatGPT. El chatbot cuenta con cinco opciones diferentes, pero una de ellas ha sido criticada por parecerse a la de la actriz, Scarlett Johansson, por lo que la empresa prefirió detener su uso parcialmente.

Desde su lanzamiento en septiembre de 2023, esta herramienta de inteligencia artificial ha tenido la capacidad de mantener conversaciones fluidas y comprender una amplia gama de temas y contextos.

Una de sus características fue la inclusión de cinco voces diferentes: Breeze, Cove, Ember, Juniper y Sky. Estas voces, que ofrecen una experiencia más humana y personalizada para los usuarios, fueron cuidadosamente seleccionadas después de un riguroso proceso de audición y selección que involucró a profesionales de la industria del doblaje y la dirección de casting.

Sin embargo, fue precisamente una de estas voces, Sky, la que generó controversia recientemente.

ChatGPT y su parecido con Scarlett Johansson

Usuarios notaron un marcado parecido entre la voz de Sky y la icónica interpretación de Scarlett Johansson en la película Her. Aunque OpenAI ha enfatizado que la voz de Sky no es una imitación intencional de Johansson, sino más bien el resultado del trabajo de una actriz profesional que empleó su voz natural, la percepción pública y las comparaciones no tardaron en surgir.

Para abordar estas preocupaciones y proteger la privacidad y la integridad de los actores involucrados, OpenAI optó por tomar la medida de pausar temporalmente el uso de la voz de Sky en ChatGPT.

El proceso de selección de las voces de ChatGPT fue meticuloso y detallado. A principios de 2023, OpenAI colaboró estrechamente con directores de casting y productores de renombre para establecer criterios específicos que las voces debían cumplir.

Estos incluían la diversidad en los orígenes de los actores, la capacidad para hablar varios idiomas, y características como una voz atemporal, accesible, cálida y que inspirara confianza. Más de 400 solicitudes fueron recibidas, y tras un arduo proceso de audiciones, 14 voces fueron inicialmente seleccionadas antes de reducir la lista a las cinco finalistas.

“Apoyamos a la comunidad creativa y trabajamos estrechamente con la industria de la actuación de voz para asegurarnos de que tomamos las medidas correctas para emitir las voces de ChatGPT. Cada actor recibe una compensación superior a las tarifas más altas del mercado, y esto continuará mientras sus voces se utilicen en nuestros productos”, informó en un comunicado la compañía.

Durante las sesiones de grabación que tuvieron lugar en San Francisco entre junio y julio de 2023, las voces de Breeze, Cove, Ember, Juniper y Sky fueron integradas cuidadosamente en el sistema ChatGPT, culminando en su lanzamiento oficial el 25 de septiembre de ese mismo año.

Desde OpenAI, se enfatizó que la pausa en el uso de la voz de Sky no solo busca aclarar malentendidos públicos, sino también proteger la privacidad y el trabajo de los actores involucrados. Aunque el nombre de la actriz detrás de Sky no ha sido revelado para respetar su anonimato, se ha confirmado que su voz natural fue empleada para crear una experiencia auténtica y genuina en ChatGPT.

Mirando hacia el futuro, OpenAI tiene planes de expandir las capacidades de voz en futuras versiones de ChatGPT, como GPT-4o, que se espera ofrezca mejoras significativas en la interacción mediante voz. Estas actualizaciones incluirán modos de voz adicionales y la integración de nuevas tecnologías para manejar interrupciones, conversaciones grupales y adaptación al tono del usuario.

La decisión de quitar temporalmente una de las voces de ChatGPT se da en medio de la llegada de GPT-4o, el modelo de lenguaje que es capaz de realizar interacciones de voz minimizando las interrupciones, gestionado las conversaciones grupales de manera efectiva, filtrando el ruido de fondo y adaptándose al tono del usuario.