
Cloudflare ha lanzado una nueva función gratuita en sus servicios de Internet con la que permite bloquear de forma automática los bots de empresas de Inteligencia Artificial (IA) y que emplean para ejecutar 'web scraping', a fin de evitar que recopilen datos de los sitios web de sus clientes. Como consecuencia de los avances de la IA generativa, cada vez hay más demanda de contenido que se utiliza para entrenar modelos o ejecutar inferencias. Así, uno de los métodos que utilizan las empresas para obtener datos nuevos es el 'web scraping' o raspado de datos en Internet. En concreto, se trata de un proceso legal en el que un 'software' extrae el contenido HTML de sitios web para filtrar su información y almacenarla, recopilando así los datos necesarios para entrenar modelos de IA. Aunque algunas compañías desarrolladoras de herramientas impulsadas por esta tecnología identifican los bots de raspado web que utilizan para obtener datos de internet, otras compañías no son tan transparentes. En este sentido, la firma estadounidense Cloudflare ha trasladado que sus clientes no quieren que los bots de IA visiten sus sitios web, especialmente, "aquellos que lo hacen de manera deshonesta". De cara a ofrecer una solución a esta cuestión, la compañía enfocada a servicios de seguridad en Internet ha agregado una nueva función gratuita a sus servicios con la que bloqueará de forma automática todos los bots de IA que identifique en los sitios web, de manera que no puedan llevar a cabo el comentado raspado de datos. Así lo ha dado a conocer Cloudflare en un comunicado en su web, en el que ha trasladado su intención de preservar una Internet segura para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan ser recopilados y utilizados para entrenar IA. Tal y como ha matizado, se trata de una herramienta que funciona "con un solo clic" y que está disponible para todos los clientes de Cloudflare, incluidos los que dispongan del nivel gratuito de su servicio, como su aplicación 1.1.1.1 o su plataforma SASE & SSE. Para habilitarla, bastará con entrar en el apartado de 'Bots' dentro del menú de 'Seguridad' en su servicio. Tras ello, los usuarios deberán activar la opción 'Raspadores y rastreadores de IA', con lo que se comenzará a bloquear a los bots para que no raspen el contenido para aplicaciones de IA como el entrenamiento de modelos. Igualmente, Cloudflare ha explicado que esta función se irá actualizando de forma automática para añadir nuevas huellas de bots infractores que hayan sido identificados como "rastreadores web de gran alcance para el entrenamiento de modelos". Esto se llevará a cabo analizando el tráfico en su red, con lo que la compañía podrá tener un conocimiento "integral" de toda la actividad de los rastreadores de IA. BOTS DE IA MÁS UTILIZADOS ACTUALMENTE Junto con esta nueva función, la compañía también ha compartido algunos datos registrados en su plataforma respecto al uso de bots para llevar a cabo 'web scraping' actualmente. Así, ha señalado que, según sus análisis, los bots más utilizados en su red han sido Bytespider de ByteDance -empresa matriz de TikTok-, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI. Entre ellos, el bot Bytespider intentó acceder a un 40,40 por ciento de los sitios web clientes de Cloudflare. De cerca le sigue GPTBot, que ha accedido a un 35,46 por ciento de sitios web para llevar a cabo raspado de datos. Por su parte, ClaudeBot desciende a un 11,17 por ciento de webs a las que ha tenido acceso. No obstante, la compañía ha advertido que, a pesar de esta actividad por parte de los bots, es probable que muchos clientes "no sepan que los rastreadores de IA más populares están rastreando activamente sus sitios web". De hecho, según ha indicado, el pasado mes de junio se identificó que los bots de IA accedieron a alrededor del 39 por ciento del millón de propiedades más importantes de Internet que utilizan Cloudflare, pero solo el 2,98 por ciento de estas webs tomaron medidas para bloquear esas solicitudes. Con todo ello, Cloudflare ha asegurado que continuarán trabajando para ayudar a mantener Internet como un lugar donde los creadores de contenidos "puedan prosperar y mantener el control total sobre los modelos que se utilizan para entrenar o ejecutar inferencias con su contenido". Este tipo de iniciativas también se están llevando a cabo por parte de otras plataformas, como es el caso de Reddit, que recientemente anunció que planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de 'bots' automatizados a sus datos públicos y evitar así el llamado raspado de datos.
Últimas Noticias
El PSG conquista la Intercontinental en los penaltis y culmina su sextete
Matvei Safonov se erigió como protagonista al detener cuatro remates en la serie de penales frente a Flamengo, consagrando al club francés en una reñida final disputada en Catar y cerrando una temporada histórica bajo la dirección de Luis Enrique

Zelenski pide a líderes europeos actuar para que Rusia "sienta que su deseo de continuar la guerra es inútil"
Mandatarios del bloque buscan resolver diferencias sobre el destino de bienes rusos inmovilizados, sopesando alternativas jurídicas para evitar demandas futuras mientras analizan mecanismos para fortalecer el respaldo a Ucrania y preservar la estabilidad legal y financiera de la Unión Europea

La Eurocámara defiende la eliminación de las fronteras internas de la UE para mover tropas y material militar
Un reciente informe del Parlamento Europeo advierte que los retrasos en la modernización de infraestructuras y los trámites burocráticos ponen en riesgo la capacidad europea de movilizar rápidamente recursos estratégicos en caso de emergencia militar

La inflación de Venezuela se dispara hasta el 556% tras el bloqueo de EEUU a los petroleros
La escasez de datos oficiales obliga a usar estimaciones alternativas para comprender el fuerte aumento de precios en Venezuela, mientras las nuevas sanciones de Estados Unidos agravan el acceso a divisas y profundizan la desigualdad social, según Bloomberg News

Amazon pone a Peter DeSantis al frente de una nueva división que combina IA, microchips y cuántica
El nuevo responsable supervisará proyectos clave tras la reestructuración interna, integrando áreas de software, microprocesadores y tecnologías cuánticas para acelerar la innovación, mejorar la competitividad internacional y concretar avances rápidos en desarrollo tecnológico, según comunicó la empresa
