
La compañía creadora de ChatGPT, OpenAI, ha lanzado un nuevo robot de rastreo web, GPTBot , para ampliar su conjunto de datos para entrenar su próxima generación de sistemas de IA.
En otros términos GPTBot es el rastreador web de OpenAI. De acuerdo con la compañía la herramienta recopilará datos disponibles públicamente de los sitios web, evitando al mismo tiempo el contenido de pago, sensible y prohibido.
No obstante, de manera similar a otros motores de búsqueda como Google, Bing y Yandex, por defecto, el sistema se encuentra habilitado para indexar contenido accesible y que considera permisible. Para evitar que el rastreador web de OpenAI analice un sitio web, el propietario debe incluir una regla de “no permitir” en un archivo estándar en el servidor.

La empresa invita a los usuarios a que si desean impedir que GPTBot acceda a su sitio, pueden agregar GPTBot al archivo robots.txt de su sitio.
OpenAI igualmente menciona que GPTBot escaneará de forma preventiva los datos extraídos para eliminar información de identificación personal (PII) y texto que viole sus políticas. Sin embargo, según algunos especialistas en ética de la tecnología, el enfoque de exclusión voluntaria todavía plantea problemas de consentimiento.
El despliegue de GPTBot viene después de las críticas recientes dirigidas a OpenAI por su práctica previa de recopilar información sin autorización para entrenar modelos de lenguaje de gran envergadura (LLM) como ChatGPT.

Entretanto, una solicitud de marca reciente para GPT-5 da indicios de que OpenAI está preparando su próximo modelo para un lanzamiento futuro. Es muy probable que este nuevo sistema involucre una extensa recolección de datos en la web para actualizar y ampliar sus datos de entrenamiento.
Este desarrollo podría marcar un cambio respecto al enfoque inicial de OpenAI en la transparencia y la seguridad en la IA, aunque no resulta sorprendente, dado que ChatGPT es el LLM más ampliamente utilizado en el mundo, a pesar de un mercado cada vez más competitivo y poderoso. La calidad de los datos empleados para su entrenamiento juega un papel crucial en el éxito del producto estrella de OpenAI (y de cualquier LLM).
Por otra parte, existe un Modelo de Lenguaje de Máquina (LLM) de código abierto desarrollado por el gigante de las redes sociales, Meta. Este gigante tecnológico ofrece su modelo de forma gratuita, siempre y cuando no seas un competidor o una empresa de gran envergadura. Meta no ha divulgado qué conjuntos de datos empleó para entrenar su modelo ni qué información recopiló. No obstante, este enfoque permite a los usuarios personalizar el modelo utilizando sus propios conjuntos de datos.

A diferencia de OpenAI, que basa su enfoque en la recopilación de todos sus datos rastreados para entrenar sus modelos y desarrollar un ecosistema lucrativo en torno a sus herramientas de IA, Meta está compitiendo para establecer un negocio rentable basado en sus datos. En consecuencia, Meta no solo utiliza los datos para mejorar sus modelos, sino que también los comparte con terceros para su aprovechamiento.
En la actualidad, OpenAI se encuentra a la vanguardia en el competitivo campo de la inteligencia artificial, y los gigantes tecnológicos están en una feroz competencia por alcanzarla. La introducción del nuevo rastreador web de la empresa podría potenciar aún más las capacidades de sus modelos. Sin embargo, la expansión en la recolección de datos en línea también genera interrogantes éticos relacionadas con los derechos de autor y el consentimiento.
Últimas Noticias
¿ChatGPT en tu sala?: OpenAI desarrollaría un altavoz inteligente con cámara para el hogar
La cámara incorporada serviría tanto para videollamadas como para funciones avanzadas de reconocimiento facial y de objetos

Netflix ya no es solo streaming: así transforma sus series en negocios más allá de la pantalla
La compañía logró convertir la estética romántica de Bridgerton en una plataforma comercial que abarca desde perfumes y joyería hasta experiencias digitales interactivas

Estos son los modelos de celulares compatibles con Starlink para disfrutar de internet en cualquier momento y lugar
Para utilizar Starlink en el móvil, necesitas un plan de T-Mobile compatible o activar una eSIM si no eres cliente de esa compañía

Banca, abogados y programadores en alerta: la IA acelera el recorte de empleos
De acuerdo con el informe “Agents, Robots, and Us: Skill Partnerships in the Age of AI”, cuatro de cada 10 puestos de trabajo en Estados Unidos tienen un elevado riesgo de ser automatizados

Cómo limpiar la lavadora correctamente según las indicaciones de los fabricantes
El uso de vinagre, cloro y agua caliente, junto con la ventilación y el cuidado de las juntas, son esenciales para mantener la eficiencia y la higiene del electrodoméstico


