Salesforce es demandada por dos autoras que la acusan de usar miles de libros sin permiso para entrenar su IA XGen

La demanda sostiene también que Salesforce utilizó The Pile para la capacitación de sus modelos CodeGen en 2022 y que, desde entonces, comercializó diferentes servicios de IA

Por Rafael Montoro

Las escritoras E. Molly Tanzer y Jennifer Gilmore lideran esta acción judicial bajo la Ley de Derechos de Autor. REUTERS/Dado Ruvic

Un nuevo litigio federal sacude al sector tecnológico: Salesforce enfrenta una demanda colectiva presentada en San Francisco, donde se le acusa de haber utilizado ilegalmente una enorme biblioteca de libros con derechos de autor para el desarrollo y entrenamiento de sus modelos de inteligencia artificial conocidos como XGen.

Las escritoras E. Molly Tanzer y Jennifer Gilmore lideran esta acción judicial bajo la Ley de Derechos de Autor, argumentando la infracción constante de sus derechos y señalando la supuesta eliminación sistemática de referencias a los materiales originales por parte de Salesforce cuando el origen de los datos comenzó a ser cuestionado.

Detalles de la demanda: acusaciones sobre el entrenamiento de IA con libros protegidos

Según la demanda, Salesforce habría empleado “cientos de miles de libros con derechos de autor para desarrollar su serie de Large Language Models XGen”, fundamentando esta acción en el uso de los “notorios conjuntos de datos RedPajama y The Pile”, colecciones que integran el corpus conocido como Books3. Esta última, una selección de más de 196.000 libros extraídos del rastreador privado Bibliotik, habría servido de base para alimentar los sistemas de IA de la compañía.

Salesforce enfrenta una demanda colectiva presentada en San Francisco. REUTERS/Dado Ruvic

Las autoras afirman que, tras lanzar públicamente XGen en junio de 2023, Salesforce inicialmente “listó ‘RedPajama-Books’ entre sus fuentes de entrenamiento”, según los registros del repositorio en GitHub vinculados por ingenieros de la empresa. Sin embargo, en septiembre de ese año, la compañía empezó a eliminar dichas referencias de su sitio web, sustituyéndolas por menciones generales a “datos de lenguaje natural” tomados de “fuentes disponibles públicamente”.

Citado directamente en la denuncia, el CEO de Salesforce, Marc Benioff, señaló en una entrevista con Bloomberg en enero de 2024 que “las empresas de IA ‘robaron’ los datos de entrenamiento y que ‘todos los datos de entrenamiento han sido robados’”. Además, la plataforma Hugging Face, que alojaba la base de datos Books3, la eliminó en octubre de 2023 después de recibir quejas por presunta violación de derechos de autor.

La demanda sostiene también que Salesforce utilizó The Pile para el entrenamiento de sus modelos CodeGen en 2022 y que, desde entonces, comercializó diferentes servicios de IA —incluido XGen-Sales—, incluso después de borrar rastros de su uso de RedPajama-Books. Recién en diciembre de 2023, la empresa habría afirmado que sus modelos se entrenaron en “un conjunto de datos legalmente conforme”, ya sin mencionar RedPajama o las fuentes cuestionadas.

FILE PHOTO: The company logo for Salesforce is displayed on the Salesforce Tower in New York City, U.S., March 7, 2019. REUTERS/Brendan McDermid/File Photo

Contexto legal: precedentes y desafíos de las demandas por entrenamiento de IA

El caso presentado por Tanzer y Gilmore se encuadra en una serie de demandas recientes contra empresas tecnológicas bajo acusaciones similares. Como explicó Ishita Sharma, socia directora de Fathom Legal, a Decrypt, los litigios de este tipo requieren que los autores “prueben un daño financiero real, no solo que sus libros fueron utilizados para el entrenamiento”, haciendo referencia a un reciente fallo del juez Vince Chhabria que desestimó cargos contra Meta al dictaminar que “simplemente afirmar ‘nuestro trabajo fue utilizado’ no es suficiente”.

Sentencias previas favorables a OpenAI y Anthropic marcan el clima judicial en este terreno: los jueces han determinado que los autores no lograron “probar un daño al mercado”, aunque algunos han criticado de forma explícita la existencia de “una biblioteca permanente de libros pirata” en posesión de desarrolladores de IA.

Sin embargo, Sharma advierte que “usar conjuntos de datos públicos como RedPajama o The Pile no borra automáticamente la infracción intencional”, precisando que “si sabían o ignoraron que se incluían obras con derechos de autor, los tribunales aún podrían encontrar un desprecio imprudente”.

FILE PHOTO: A Salesforce sign is seen during the company's annual Dreamforce event, in San Francisco, California November 18, 2013. REUTERS/Robert Galbraith/File Photo

Desde su perspectiva, solo si la inteligencia artificial puede reproducir de manera literal elementos significativos de la obra original, podría considerarse que los “pesos del modelo en sí mismos” constituyen infracción directa.

Peticiones de las autoras y el impacto potencial para Salesforce

Las escritoras Tanzer y Gilmore buscan la certificación de clase colectiva para todos los titulares de derechos de autor estadounidenses cuyas obras hayan sido utilizadas por Salesforce desde octubre de 2022. Entre sus exigencias figuran daños estatutarios, destrucción de copias infractoras, confiscación de posibles ganancias, una declaración formal sobre infracción intencional y el pago de honorarios legales.

El desarrollo de este litigio es seguido de cerca no solo por Salesforce, sino por todo el sector de inteligencia artificial generativa y procesamiento de datos. El resultado podría establecer nuevos precedentes sobre los límites legales en la utilización de material protegido para la creación y entrenamiento de herramientas de IA, así como definir las obligaciones de transparencia respecto a los datos empleados por grandes empresas tecnológicas.

