Cloudflare lanza una función para impedir que los bots de empresas de IA ejecuten 'web scraping' en webs de sus clientes

Guardar

Cloudflare ha lanzado una nueva función gratuita en sus servicios de Internet con la que permite bloquear de forma automática los bots de empresas de Inteligencia Artificial (IA) y que emplean para ejecutar 'web scraping', a fin de evitar que recopilen datos de los sitios web de sus clientes. Como consecuencia de los avances de la IA generativa, cada vez hay más demanda de contenido que se utiliza para entrenar modelos o ejecutar inferencias. Así, uno de los métodos que utilizan las empresas para obtener datos nuevos es el 'web scraping' o raspado de datos en Internet. En concreto, se trata de un proceso legal en el que un 'software' extrae el contenido HTML de sitios web para filtrar su información y almacenarla, recopilando así los datos necesarios para entrenar modelos de IA. Aunque algunas compañías desarrolladoras de herramientas impulsadas por esta tecnología identifican los bots de raspado web que utilizan para obtener datos de internet, otras compañías no son tan transparentes. En este sentido, la firma estadounidense Cloudflare ha trasladado que sus clientes no quieren que los bots de IA visiten sus sitios web, especialmente, "aquellos que lo hacen de manera deshonesta". De cara a ofrecer una solución a esta cuestión, la compañía enfocada a servicios de seguridad en Internet ha agregado una nueva función gratuita a sus servicios con la que bloqueará de forma automática todos los bots de IA que identifique en los sitios web, de manera que no puedan llevar a cabo el comentado raspado de datos. Así lo ha dado a conocer Cloudflare en un comunicado en su web, en el que ha trasladado su intención de preservar una Internet segura para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan ser recopilados y utilizados para entrenar IA. Tal y como ha matizado, se trata de una herramienta que funciona "con un solo clic" y que está disponible para todos los clientes de Cloudflare, incluidos los que dispongan del nivel gratuito de su servicio, como su aplicación 1.1.1.1 o su plataforma SASE & SSE. Para habilitarla, bastará con entrar en el apartado de 'Bots' dentro del menú de 'Seguridad' en su servicio. Tras ello, los usuarios deberán activar la opción 'Raspadores y rastreadores de IA', con lo que se comenzará a bloquear a los bots para que no raspen el contenido para aplicaciones de IA como el entrenamiento de modelos. Igualmente, Cloudflare ha explicado que esta función se irá actualizando de forma automática para añadir nuevas huellas de bots infractores que hayan sido identificados como "rastreadores web de gran alcance para el entrenamiento de modelos". Esto se llevará a cabo analizando el tráfico en su red, con lo que la compañía podrá tener un conocimiento "integral" de toda la actividad de los rastreadores de IA. BOTS DE IA MÁS UTILIZADOS ACTUALMENTE Junto con esta nueva función, la compañía también ha compartido algunos datos registrados en su plataforma respecto al uso de bots para llevar a cabo 'web scraping' actualmente. Así, ha señalado que, según sus análisis, los bots más utilizados en su red han sido Bytespider de ByteDance -empresa matriz de TikTok-, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI. Entre ellos, el bot Bytespider intentó acceder a un 40,40 por ciento de los sitios web clientes de Cloudflare. De cerca le sigue GPTBot, que ha accedido a un 35,46 por ciento de sitios web para llevar a cabo raspado de datos. Por su parte, ClaudeBot desciende a un 11,17 por ciento de webs a las que ha tenido acceso. No obstante, la compañía ha advertido que, a pesar de esta actividad por parte de los bots, es probable que muchos clientes "no sepan que los rastreadores de IA más populares están rastreando activamente sus sitios web". De hecho, según ha indicado, el pasado mes de junio se identificó que los bots de IA accedieron a alrededor del 39 por ciento del millón de propiedades más importantes de Internet que utilizan Cloudflare, pero solo el 2,98 por ciento de estas webs tomaron medidas para bloquear esas solicitudes. Con todo ello, Cloudflare ha asegurado que continuarán trabajando para ayudar a mantener Internet como un lugar donde los creadores de contenidos "puedan prosperar y mantener el control total sobre los modelos que se utilizan para entrenar o ejecutar inferencias con su contenido". Este tipo de iniciativas también se están llevando a cabo por parte de otras plataformas, como es el caso de Reddit, que recientemente anunció que planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de 'bots' automatizados a sus datos públicos y evitar así el llamado raspado de datos.

EuropaPress

Últimas Noticias

José Ortega Cano, un suegro 'de libro' en el cumpleaños de Gloria Camila: "Con 30 años es mejor estar solo"

Acompañando a su hija en una fecha especial, el conocido diestro elogió públicamente a Gloria, resaltando su madurez y carácter tras cumplir tres décadas y expresó su deseo de verla disfrutando la soltería tras experiencias sentimentales recientes

La Casa Real destaca el "excelente trabajo en equipo" de Oriol Cardona y Ana Alonso

La familia real felicita públicamente a los atletas tras conquistar la presea en Milán-Cortina 2026, resaltando su colaboración y celebrando el histórico triunfo que aumenta el medallero nacional en estos Juegos Olímpicos de Invierno

Detenido un obispo de la Iglesia Anglicana acusado de agresiones sexuales reiteradas

Las autoridades británicas informan que Stephen Conway, referente religioso y político, enfrenta medidas disciplinarias y proceso penal a raíz de denuncias por conducta indebida, desencadenando una investigación oficial y relevos en sus funciones dentro de la diócesis

La Liga Árabe denuncia que el embajador de EEUU en Israel defiende una expansión regional israelí

Diversas voces en Oriente Próximo rechazan las afirmaciones recientes del diplomático estadounidense en Tel Aviv, tildándolas de extremistas, provocadoras y ajenas al derecho internacional, mientras exigen una postura oficial clara por parte de Washington sobre el tema

Temas Relacionados