Reddit acusa a Perplexity de copiar su contenido para alimentar a la inteligencia artificial

Los datos de la plataforma, compuestos por publicaciones y debates sobre una amplia variedad de temas, resultan valiosos para los sistemas de IA

Renzo Gonzales

Renzo Gonzales

No es la primera vez
Reddit ha presentado una demanda contra Perplexity, una empresa emergente de inteligencia artificial, y tres proveedores de servicios de scraping de datos, a quienes acusa de obtener y utilizar de forma ilegal contenido protegido de su plataforma para alimentar el motor de respuestas de la compañía de IA.

La acción legal, interpuesta tras el envío de una carta de cese y desistimiento en mayo de 2024, sostiene que estas prácticas constituyen una violación de las protecciones tecnológicas y de los derechos de autor, en un contexto donde el valor de los datos humanos para entrenar sistemas de IA se ha convertido en un recurso estratégico.

En la demanda, Reddit afirma que Perplexity recurre a intermediarios especializados en scraping —SerpApi, Oxylabs y AWMProxy— para eludir las barreras técnicas que impiden el acceso directo a los datos de la plataforma. Según la acusación, Perplexity actúa como cliente de al menos una de estas empresas, optando por adquirir información obtenida de manera ilícita en lugar de negociar acuerdos legítimos, como sí han hecho otros actores del sector.

Perplexity. (Reuters)
Advertencias previas de Reddit

Reddit argumenta que, tras la advertencia formal enviada en mayo, lejos de disminuir, el número de citas de contenido de Reddit en Perplexity aumentó. Además, la compañía relata que creó una publicación accesible únicamente para Google, cuyo contenido apareció en el motor de Perplexity pocas horas después, lo que, a su juicio, demuestra que los demandados recurrieron al scraping de resultados de búsqueda para incorporar datos de Reddit a su sistema.

El papel de las empresas de scraping de datos resulta central en el conflicto. Reddit compara a SerpApi, Oxylabs y AWMProxy con “aspirantes a ladrones de bancos” que, al no poder acceder directamente a la “bóveda”, atacan el “camión blindado” que transporta el dinero.

La demanda describe a Oxylabs como una empresa lituana dedicada al scraping, a AWMProxy como un antiguo botnet ruso y a SerpApi como una compañía que publicita abiertamente tácticas para eludir restricciones. Según Reddit, estos actores ocultan su identidad y ubicación, y disfrazan sus herramientas para extraer contenido de Reddit a través de Google Search, facilitando así que clientes como Perplexity accedan a datos protegidos sin autorización.

Logo de Reddit. (Reuters)
El trasfondo de este litigio se enmarca en la creciente importancia del contenido generado por usuarios de Reddit para el desarrollo de modelos de inteligencia artificial. Los datos de la plataforma, compuestos por publicaciones y debates sobre una amplia variedad de temas, resultan especialmente valiosos para entrenar sistemas que buscan comprender y replicar el lenguaje humano. Consciente de este valor, Reddit implementó en 2023 cambios en su API para monetizar el acceso a su información, lo que generó protestas entre la comunidad.

Desde entonces, la empresa ha cerrado acuerdos comerciales con compañías como OpenAI y Google, y ha manifestado su interés en obtener condiciones más favorables. Además, Reddit ya ha emprendido acciones legales contra otras firmas de IA, como Anthropic, por acceder a su plataforma sin autorización.

Frente a las acusaciones, Perplexity ha respondido que aún no ha recibido la demanda, pero ha defendido su modelo de funcionamiento. Jesse Dwyer, responsable de comunicación de la empresa, afirmó que “siempre lucharemos con firmeza por el derecho de los usuarios a acceder libre y justamente al conocimiento público”. Dwyer añadió que la compañía mantiene un enfoque “responsable y basado en principios” al ofrecer respuestas precisas mediante inteligencia artificial, y que no tolerará amenazas contra la apertura y el interés público.

Reddit. (Reuters)
En declaraciones recogidas en el marco de este conflicto, Ben Lee, director jurídico de Reddit, subrayó que los scrapers “eluden las protecciones tecnológicas para robar datos y luego los venden a clientes ávidos de material para entrenamiento”. Lee destacó que Reddit se ha convertido en un objetivo prioritario por ser “una de las colecciones de conversaciones humanas más grandes y dinámicas jamás creadas”. Por su parte, Dwyer insistió en la defensa de la transparencia y el acceso abierto al conocimiento.

El caso refleja la presión creciente en la industria de la inteligencia artificial por acceder a contenido humano de calidad, una competencia que ha impulsado la aparición de un mercado paralelo de obtención y comercialización de datos, con implicaciones legales y éticas que permanecen sin resolver.

