
La compañía creadora de ChatGPT, OpenAI, ha lanzado un nuevo robot de rastreo web, GPTBot , para ampliar su conjunto de datos para entrenar su próxima generación de sistemas de IA.
En otros términos GPTBot es el rastreador web de OpenAI. De acuerdo con la compañía la herramienta recopilará datos disponibles públicamente de los sitios web, evitando al mismo tiempo el contenido de pago, sensible y prohibido.
PUBLICIDAD
No obstante, de manera similar a otros motores de búsqueda como Google, Bing y Yandex, por defecto, el sistema se encuentra habilitado para indexar contenido accesible y que considera permisible. Para evitar que el rastreador web de OpenAI analice un sitio web, el propietario debe incluir una regla de “no permitir” en un archivo estándar en el servidor.

La empresa invita a los usuarios a que si desean impedir que GPTBot acceda a su sitio, pueden agregar GPTBot al archivo robots.txt de su sitio.
PUBLICIDAD
OpenAI igualmente menciona que GPTBot escaneará de forma preventiva los datos extraídos para eliminar información de identificación personal (PII) y texto que viole sus políticas. Sin embargo, según algunos especialistas en ética de la tecnología, el enfoque de exclusión voluntaria todavía plantea problemas de consentimiento.
El despliegue de GPTBot viene después de las críticas recientes dirigidas a OpenAI por su práctica previa de recopilar información sin autorización para entrenar modelos de lenguaje de gran envergadura (LLM) como ChatGPT.
PUBLICIDAD

Entretanto, una solicitud de marca reciente para GPT-5 da indicios de que OpenAI está preparando su próximo modelo para un lanzamiento futuro. Es muy probable que este nuevo sistema involucre una extensa recolección de datos en la web para actualizar y ampliar sus datos de entrenamiento.
Este desarrollo podría marcar un cambio respecto al enfoque inicial de OpenAI en la transparencia y la seguridad en la IA, aunque no resulta sorprendente, dado que ChatGPT es el LLM más ampliamente utilizado en el mundo, a pesar de un mercado cada vez más competitivo y poderoso. La calidad de los datos empleados para su entrenamiento juega un papel crucial en el éxito del producto estrella de OpenAI (y de cualquier LLM).
PUBLICIDAD
Por otra parte, existe un Modelo de Lenguaje de Máquina (LLM) de código abierto desarrollado por el gigante de las redes sociales, Meta. Este gigante tecnológico ofrece su modelo de forma gratuita, siempre y cuando no seas un competidor o una empresa de gran envergadura. Meta no ha divulgado qué conjuntos de datos empleó para entrenar su modelo ni qué información recopiló. No obstante, este enfoque permite a los usuarios personalizar el modelo utilizando sus propios conjuntos de datos.

A diferencia de OpenAI, que basa su enfoque en la recopilación de todos sus datos rastreados para entrenar sus modelos y desarrollar un ecosistema lucrativo en torno a sus herramientas de IA, Meta está compitiendo para establecer un negocio rentable basado en sus datos. En consecuencia, Meta no solo utiliza los datos para mejorar sus modelos, sino que también los comparte con terceros para su aprovechamiento.
PUBLICIDAD
En la actualidad, OpenAI se encuentra a la vanguardia en el competitivo campo de la inteligencia artificial, y los gigantes tecnológicos están en una feroz competencia por alcanzarla. La introducción del nuevo rastreador web de la empresa podría potenciar aún más las capacidades de sus modelos. Sin embargo, la expansión en la recolección de datos en línea también genera interrogantes éticos relacionadas con los derechos de autor y el consentimiento.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Por qué saludamos varias veces a una persona en un día, según la inteligencia artificial
Gemini describe el fenómeno como una reacción instintiva alimentada por nuestra naturaleza social

Cómo usar Google Maps para planear tu visita a los estadios del Mundial
Es posible definir el punto de partida, elegir entre automóvil, transporte público, bicicleta o caminar, y visualizar las sugerencias de ruta junto con el tiempo estimado de llegada

Así es la cama inteligente de 2026 que entusiasma a las figuras de la tecnología
La principal característica de este desarrollo radica en su capacidad para regular la temperatura de la cama de forma automática y personalizada

¿Tus amigos usan mucho los chatbots de IA? Podrían ser más propensos a creer en mitos antivacunas
Personas con educación universitaria e ingresos altos tienden a buscar información médica en herramientas de IA

Nueva competencia para SpaceX: una startup planea lanzar 100.000 satélites para centros de datos en el espacio
La constelación espacial propuesta podría aportar 10 gigavatios de potencia informática, igualando la nueva capacidad eléctrica anual de Estados Unidos


