Medios de comunicación bloquean el acceso de Internet Archive para evitar el 'web scrapping' destinado a entrenar IA

Varias grandes cabeceras y grupos editoriales restringen la entrada de bots de archive.org, tras comprobar que parte de sus textos terminan en manos de desarrolladores de inteligencia artificial, quienes usan estos materiales para perfeccionar sus algoritmos sin autorización

Guardar

De acuerdo con información presentada por Nieman Lab y un análisis realizado a partir de la base de datos del periodista Ben Welsh, hacia finales de diciembre, un total de 241 portales noticiosos en nueve países habían aplicado bloqueos contra al menos uno de los robots de rastreo de Internet Archive. El estudio destacó que buena parte de estos portales pertenecía al grupo editorial USA Today. Este escenario ilustra la respuesta de numerosos medios de comunicación frente a la utilización de sus contenidos en el entrenamiento de sistemas de inteligencia artificial sin su consentimiento.

Nieman Lab informó que varias organizaciones mediáticas, incluidas cabeceras como The Guardian y The New York Times, así como editoras como USA Today, han tomado medidas para restringir la entrada de los rastreadores de Internet Archive a sus plataformas. Estas compañías han desplegado códigos en sus archivos robots.txt para limitar el acceso tanto a los ‘bots’ de archive.org_bot como de ia_archiver-web.archive.org, con la finalidad de impedir que el contenido de sus portales sea recolectado y posteriormente empleado, sin autorización, en los procesos de perfeccionamiento de modelos de inteligencia artificial.

El medio Nieman Lab detalló que esta determinación surge ante la preocupación creciente de los medios, quienes han observado que algoritmos y empresas tecnológicas recurren a la biblioteca digital Internet Archive con el objetivo de acceder, mediante prácticas de web scraping, a materiales informativos que en ocasiones se encuentran protegidos bajo suscripciones o muros de pago. La plataforma de Internet Archive, reconocida por su archivo histórico Wayback Machine, realiza capturas periódicas de páginas web y las almacena para su consulta pública, lo que incluye artículos periodísticos de diversas fuentes.

Según publicó Nieman Lab, los modelos de inteligencia artificial utilizan robots rastreadores para explorar y copiar contenidos textuales distribuidos abiertamente en Internet. Estas prácticas, enmarcadas en el web scrapping, han posibilitado que desarrolladores de IA obtengan textos, tanto actuales como de archivo, para nutrir sus algoritmos de entrenamiento. Los medios, al comprobar que parte de sus materiales terminan en bases de datos para inteligencia artificial sin consentimiento previo, han optado por reforzar la protección de sus contenidos digitales.

Algunos entornos editoriales han impulsado acciones legales luego de identificar que empresas de inteligencia artificial han incorporado en sus sistemas información obtenida de medios periodísticos. The New York Times, por ejemplo, emprendió demandas judiciales contra OpenAI, Microsoft y Perplexity, argumentando el uso no autorizado de sus publicaciones. Por su parte, The Wall Street Journal y New York Post también establecieron acciones legales contra Perplexity por situaciones similares, según consignó Nieman Lab.

El medio detalló además que, ante la amplitud de la actividad de web scraping y el papel que juega Internet Archive en el proceso de almacenamiento masivo de información digital, la reacción de los medios busca limitar la reutilización indiscriminada de contenidos periodísticos por parte de desarrolladores tecnológicos. Wayback Machine, como archivo histórico, asegura la preservación de materiales digitales y su disponibilidad universal, lo que la convierte en una fuente apetecible para las empresas orientadas al desarrollo de modelos de idioma e inteligencia artificial.

Nieman Lab subrayó que la preocupación principal reside en que la capacidad de recopilación automatizada puede rebasar las intenciones originales de Internet Archive como proyecto sin ánimo de lucro, abriendo el debate sobre los derechos de propiedad intelectual y la protección de los intereses de los creadores y editores de contenido. Los mecanismos de exclusión implementados en los robots.txt representan una vía tecnológica para interrumpir el acceso indiscriminado de rastreadores, aunque su efectividad depende de la adhesión de los ‘bots’ a las normas del archivo.

El análisis concluyó que el mayor número de restricciones a los rastreadores de Internet Archive proviene de los portales del conglomerado USA Today. No obstante, la lista involucra a cabeceras relevantes de diversos países y señala una tendencia de la industria periodística hacia la adopción de medidas tecnológicas y legales para frenar la utilización no autorizada de su trabajo en el ecosistema de la inteligencia artificial.