ChatGPT 5 está listo: de dónde obtuvo los datos públicos

OpenAI creó un robot que acumula datos de la web con el objetivo de potenciar su inteligencia artificial

Guardar

Nuevo

GPTBot es el nombre del rastreador web de OpenAi. REUTERS/Dado Ruvic/Ilustración
GPTBot es el nombre del rastreador web de OpenAi. REUTERS/Dado Ruvic/Ilustración

La compañía creadora de ChatGPT, OpenAI, ha lanzado un nuevo robot de rastreo web, GPTBot , para ampliar su conjunto de datos para entrenar su próxima generación de sistemas de IA.

En otros términos GPTBot es el rastreador web de OpenAI. De acuerdo con la compañía la herramienta recopilará datos disponibles públicamente de los sitios web, evitando al mismo tiempo el contenido de pago, sensible y prohibido.

No obstante, de manera similar a otros motores de búsqueda como Google, Bing y Yandex, por defecto, el sistema se encuentra habilitado para indexar contenido accesible y que considera permisible. Para evitar que el rastreador web de OpenAI analice un sitio web, el propietario debe incluir una regla de “no permitir” en un archivo estándar en el servidor.

ChatGPT es la plataforma de IA más popular actualmente. (Unsplash)
ChatGPT es la plataforma de IA más popular actualmente. (Unsplash)

La empresa invita a los usuarios a que si desean impedir que GPTBot acceda a su sitio, pueden agregar GPTBot al archivo robots.txt de su sitio.

OpenAI igualmente menciona que GPTBot escaneará de forma preventiva los datos extraídos para eliminar información de identificación personal (PII) y texto que viole sus políticas. Sin embargo, según algunos especialistas en ética de la tecnología, el enfoque de exclusión voluntaria todavía plantea problemas de consentimiento.

El despliegue de GPTBot viene después de las críticas recientes dirigidas a OpenAI por su práctica previa de recopilar información sin autorización para entrenar modelos de lenguaje de gran envergadura (LLM) como ChatGPT.

Una de las grandes preocupaciones en el uso del rastreador es la seguridad y privacidad. (Foto AP/Michael Dwyer)
Una de las grandes preocupaciones en el uso del rastreador es la seguridad y privacidad. (Foto AP/Michael Dwyer)

Entretanto, una solicitud de marca reciente para GPT-5 da indicios de que OpenAI está preparando su próximo modelo para un lanzamiento futuro. Es muy probable que este nuevo sistema involucre una extensa recolección de datos en la web para actualizar y ampliar sus datos de entrenamiento.

Este desarrollo podría marcar un cambio respecto al enfoque inicial de OpenAI en la transparencia y la seguridad en la IA, aunque no resulta sorprendente, dado que ChatGPT es el LLM más ampliamente utilizado en el mundo, a pesar de un mercado cada vez más competitivo y poderoso. La calidad de los datos empleados para su entrenamiento juega un papel crucial en el éxito del producto estrella de OpenAI (y de cualquier LLM).

Por otra parte, existe un Modelo de Lenguaje de Máquina (LLM) de código abierto desarrollado por el gigante de las redes sociales, Meta. Este gigante tecnológico ofrece su modelo de forma gratuita, siempre y cuando no seas un competidor o una empresa de gran envergadura. Meta no ha divulgado qué conjuntos de datos empleó para entrenar su modelo ni qué información recopiló. No obstante, este enfoque permite a los usuarios personalizar el modelo utilizando sus propios conjuntos de datos.

El chatbot de ChatGPT necesita que el usuario sea preciso con las indiciaciones. (Pexels)
El chatbot de ChatGPT necesita que el usuario sea preciso con las indiciaciones. (Pexels)

A diferencia de OpenAI, que basa su enfoque en la recopilación de todos sus datos rastreados para entrenar sus modelos y desarrollar un ecosistema lucrativo en torno a sus herramientas de IA, Meta está compitiendo para establecer un negocio rentable basado en sus datos. En consecuencia, Meta no solo utiliza los datos para mejorar sus modelos, sino que también los comparte con terceros para su aprovechamiento.

En la actualidad, OpenAI se encuentra a la vanguardia en el competitivo campo de la inteligencia artificial, y los gigantes tecnológicos están en una feroz competencia por alcanzarla. La introducción del nuevo rastreador web de la empresa podría potenciar aún más las capacidades de sus modelos. Sin embargo, la expansión en la recolección de datos en línea también genera interrogantes éticos relacionadas con los derechos de autor y el consentimiento.

Guardar

Nuevo