
La compañía creadora de ChatGPT, OpenAI, ha lanzado un nuevo robot de rastreo web, GPTBot , para ampliar su conjunto de datos para entrenar su próxima generación de sistemas de IA.
En otros términos GPTBot es el rastreador web de OpenAI. De acuerdo con la compañía la herramienta recopilará datos disponibles públicamente de los sitios web, evitando al mismo tiempo el contenido de pago, sensible y prohibido.
No obstante, de manera similar a otros motores de búsqueda como Google, Bing y Yandex, por defecto, el sistema se encuentra habilitado para indexar contenido accesible y que considera permisible. Para evitar que el rastreador web de OpenAI analice un sitio web, el propietario debe incluir una regla de “no permitir” en un archivo estándar en el servidor.

La empresa invita a los usuarios a que si desean impedir que GPTBot acceda a su sitio, pueden agregar GPTBot al archivo robots.txt de su sitio.
OpenAI igualmente menciona que GPTBot escaneará de forma preventiva los datos extraídos para eliminar información de identificación personal (PII) y texto que viole sus políticas. Sin embargo, según algunos especialistas en ética de la tecnología, el enfoque de exclusión voluntaria todavía plantea problemas de consentimiento.
El despliegue de GPTBot viene después de las críticas recientes dirigidas a OpenAI por su práctica previa de recopilar información sin autorización para entrenar modelos de lenguaje de gran envergadura (LLM) como ChatGPT.

Entretanto, una solicitud de marca reciente para GPT-5 da indicios de que OpenAI está preparando su próximo modelo para un lanzamiento futuro. Es muy probable que este nuevo sistema involucre una extensa recolección de datos en la web para actualizar y ampliar sus datos de entrenamiento.
Este desarrollo podría marcar un cambio respecto al enfoque inicial de OpenAI en la transparencia y la seguridad en la IA, aunque no resulta sorprendente, dado que ChatGPT es el LLM más ampliamente utilizado en el mundo, a pesar de un mercado cada vez más competitivo y poderoso. La calidad de los datos empleados para su entrenamiento juega un papel crucial en el éxito del producto estrella de OpenAI (y de cualquier LLM).
Por otra parte, existe un Modelo de Lenguaje de Máquina (LLM) de código abierto desarrollado por el gigante de las redes sociales, Meta. Este gigante tecnológico ofrece su modelo de forma gratuita, siempre y cuando no seas un competidor o una empresa de gran envergadura. Meta no ha divulgado qué conjuntos de datos empleó para entrenar su modelo ni qué información recopiló. No obstante, este enfoque permite a los usuarios personalizar el modelo utilizando sus propios conjuntos de datos.

A diferencia de OpenAI, que basa su enfoque en la recopilación de todos sus datos rastreados para entrenar sus modelos y desarrollar un ecosistema lucrativo en torno a sus herramientas de IA, Meta está compitiendo para establecer un negocio rentable basado en sus datos. En consecuencia, Meta no solo utiliza los datos para mejorar sus modelos, sino que también los comparte con terceros para su aprovechamiento.
En la actualidad, OpenAI se encuentra a la vanguardia en el competitivo campo de la inteligencia artificial, y los gigantes tecnológicos están en una feroz competencia por alcanzarla. La introducción del nuevo rastreador web de la empresa podría potenciar aún más las capacidades de sus modelos. Sin embargo, la expansión en la recolección de datos en línea también genera interrogantes éticos relacionadas con los derechos de autor y el consentimiento.
Últimas Noticias
Todos los rumores sobre el nuevo Apple TV que llegaría en 2026: Siri, IA con Apple Intelligence y más
Gracias al nuevo hardware, el Apple TV podría ejecutar videojuegos AAA de forma nativa, ampliando su rol más allá del streaming tradicional

Facebook comienza a restringir una de sus funciones clave para perfiles no verificados
Meta está evaluando un sistema que obliga a los perfiles sin suscripción paga a reducir drásticamente la publicación de enlaces en contenidos orgánicos

GhostPairing, el nuevo ataque digital que roba cuentas de WhatsApp sin necesidad de duplicar la SIM
Mediante ingeniería social, los ciberdelincuentes logran que el propio usuario autorice el acceso a su cuenta

Navidad gamer 2025: cómo escoger la mejor consola de videojuegos para niños y adolescentes
Ten en cuenta el presupuesto: la PlayStation 5 cuesta cerca de 479 dólares, la Xbox Series X ronda los 599 dólares y la Nintendo Switch 2 vale aproximadamente 337 dólares en Amazon

El truco para evitar correos spam en Gmail y dejar de estar suscrito a newsletters
En pocos pasos, los usuarios pueden dejar de recibir mensajes no deseados y correos basuras que pueden contener virus y saturar la bandeja de entrada


