
De acuerdo con información presentada por Nieman Lab y un análisis realizado a partir de la base de datos del periodista Ben Welsh, hacia finales de diciembre, un total de 241 portales noticiosos en nueve países habían aplicado bloqueos contra al menos uno de los robots de rastreo de Internet Archive. El estudio destacó que buena parte de estos portales pertenecía al grupo editorial USA Today. Este escenario ilustra la respuesta de numerosos medios de comunicación frente a la utilización de sus contenidos en el entrenamiento de sistemas de inteligencia artificial sin su consentimiento.
Nieman Lab informó que varias organizaciones mediáticas, incluidas cabeceras como The Guardian y The New York Times, así como editoras como USA Today, han tomado medidas para restringir la entrada de los rastreadores de Internet Archive a sus plataformas. Estas compañías han desplegado códigos en sus archivos robots.txt para limitar el acceso tanto a los ‘bots’ de archive.org_bot como de ia_archiver-web.archive.org, con la finalidad de impedir que el contenido de sus portales sea recolectado y posteriormente empleado, sin autorización, en los procesos de perfeccionamiento de modelos de inteligencia artificial.
El medio Nieman Lab detalló que esta determinación surge ante la preocupación creciente de los medios, quienes han observado que algoritmos y empresas tecnológicas recurren a la biblioteca digital Internet Archive con el objetivo de acceder, mediante prácticas de web scraping, a materiales informativos que en ocasiones se encuentran protegidos bajo suscripciones o muros de pago. La plataforma de Internet Archive, reconocida por su archivo histórico Wayback Machine, realiza capturas periódicas de páginas web y las almacena para su consulta pública, lo que incluye artículos periodísticos de diversas fuentes.
Según publicó Nieman Lab, los modelos de inteligencia artificial utilizan robots rastreadores para explorar y copiar contenidos textuales distribuidos abiertamente en Internet. Estas prácticas, enmarcadas en el web scrapping, han posibilitado que desarrolladores de IA obtengan textos, tanto actuales como de archivo, para nutrir sus algoritmos de entrenamiento. Los medios, al comprobar que parte de sus materiales terminan en bases de datos para inteligencia artificial sin consentimiento previo, han optado por reforzar la protección de sus contenidos digitales.
Algunos entornos editoriales han impulsado acciones legales luego de identificar que empresas de inteligencia artificial han incorporado en sus sistemas información obtenida de medios periodísticos. The New York Times, por ejemplo, emprendió demandas judiciales contra OpenAI, Microsoft y Perplexity, argumentando el uso no autorizado de sus publicaciones. Por su parte, The Wall Street Journal y New York Post también establecieron acciones legales contra Perplexity por situaciones similares, según consignó Nieman Lab.
El medio detalló además que, ante la amplitud de la actividad de web scraping y el papel que juega Internet Archive en el proceso de almacenamiento masivo de información digital, la reacción de los medios busca limitar la reutilización indiscriminada de contenidos periodísticos por parte de desarrolladores tecnológicos. Wayback Machine, como archivo histórico, asegura la preservación de materiales digitales y su disponibilidad universal, lo que la convierte en una fuente apetecible para las empresas orientadas al desarrollo de modelos de idioma e inteligencia artificial.
Nieman Lab subrayó que la preocupación principal reside en que la capacidad de recopilación automatizada puede rebasar las intenciones originales de Internet Archive como proyecto sin ánimo de lucro, abriendo el debate sobre los derechos de propiedad intelectual y la protección de los intereses de los creadores y editores de contenido. Los mecanismos de exclusión implementados en los robots.txt representan una vía tecnológica para interrumpir el acceso indiscriminado de rastreadores, aunque su efectividad depende de la adhesión de los ‘bots’ a las normas del archivo.
El análisis concluyó que el mayor número de restricciones a los rastreadores de Internet Archive proviene de los portales del conglomerado USA Today. No obstante, la lista involucra a cabeceras relevantes de diversos países y señala una tendencia de la industria periodística hacia la adopción de medidas tecnológicas y legales para frenar la utilización no autorizada de su trabajo en el ecosistema de la inteligencia artificial.
Últimas Noticias
Un estudio revela que consumir más alimentos ultraprocesados está relacionado con una peor salud ósea
Rusia reconoce que Ucrania cuadruplicó sus ataques contra la infraestructura energética

Guterres pone en valor el multilateralismo en encuentros con Costa y Von der Leyen antes de la cumbre de la UE
En una serie de reuniones estratégicas con altos cargos de la Unión Europea, el secretario general de Naciones Unidas expresó preocupación por los conflictos activos, llamó a reforzar la cooperación institucional y enfatizó la urgencia de acciones diplomáticas en escenarios internacionales clave

Brasil envía más de 20.000 toneladas de alimentos a Cuba para afrontar la crisis derivada del bloqueo petrolero
El gobierno sudamericano confirmó el despacho de una donación alimentaria destinada a Cuba, gestionada a través del Programa Mundial de Alimentos, tras advertencias de Naciones Unidas sobre las severas consecuencias humanas generadas por el embargo y la falta de energía

Las milicias proiraníes de Irak FMP acusan a EEUU e Israel de un bombardeo que deja un muerto y varios heridos
Un comunicado de este grupo armado responsabiliza a fuerzas extranjeras de un ataque en Saladino ocurrido al amanecer, donde la evacuación de los afectados se complicó por la presencia de aeronaves, según denuncian sus representantes en redes
