
Un nuevo litigio federal sacude al sector tecnológico: Salesforce enfrenta una demanda colectiva presentada en San Francisco, donde se le acusa de haber utilizado ilegalmente una enorme biblioteca de libros con derechos de autor para el desarrollo y entrenamiento de sus modelos de inteligencia artificial conocidos como XGen.
Las escritoras E. Molly Tanzer y Jennifer Gilmore lideran esta acción judicial bajo la Ley de Derechos de Autor, argumentando la infracción constante de sus derechos y señalando la supuesta eliminación sistemática de referencias a los materiales originales por parte de Salesforce cuando el origen de los datos comenzó a ser cuestionado.
Detalles de la demanda: acusaciones sobre el entrenamiento de IA con libros protegidos
Según la demanda, Salesforce habría empleado “cientos de miles de libros con derechos de autor para desarrollar su serie de Large Language Models XGen”, fundamentando esta acción en el uso de los “notorios conjuntos de datos RedPajama y The Pile”, colecciones que integran el corpus conocido como Books3. Esta última, una selección de más de 196.000 libros extraídos del rastreador privado Bibliotik, habría servido de base para alimentar los sistemas de IA de la compañía.
Las autoras afirman que, tras lanzar públicamente XGen en junio de 2023, Salesforce inicialmente “listó ‘RedPajama-Books’ entre sus fuentes de entrenamiento”, según los registros del repositorio en GitHub vinculados por ingenieros de la empresa. Sin embargo, en septiembre de ese año, la compañía empezó a eliminar dichas referencias de su sitio web, sustituyéndolas por menciones generales a “datos de lenguaje natural” tomados de “fuentes disponibles públicamente”.
Citado directamente en la denuncia, el CEO de Salesforce, Marc Benioff, señaló en una entrevista con Bloomberg en enero de 2024 que las empresas de IA “robaron” los datos de entrenamiento y que “todos los datos de entrenamiento han sido robados”. Además, la plataforma Hugging Face, que alojaba la base de datos Books3, la eliminó en octubre de 2023 después de recibir quejas por presunta violación de derechos de autor.
La demanda sostiene también que Salesforce utilizó The Pile para el entrenamiento de sus modelos CodeGen en 2022 y que, desde entonces, comercializó diferentes servicios de IA —incluido XGen-Sales—, incluso después de borrar rastros de su uso de RedPajama-Books. Recién en diciembre de 2023, la empresa habría afirmado que sus modelos se entrenaron en un conjunto de datos legalmente conforme, ya sin mencionar RedPajama o las fuentes cuestionadas.

Contexto legal: precedentes y desafíos de las demandas por entrenamiento de IA
El caso presentado por Tanzer y Gilmore se encuadra en una serie de demandas recientes contra empresas tecnológicas bajo acusaciones similares. Como explicó Ishita Sharma, socia directora de Fathom Legal, a Decrypt, los litigios de este tipo requieren que los autores prueben un daño financiero real, no solo que sus libros fueron utilizados para el entrenamiento, haciendo referencia a un reciente fallo del juez Vince Chhabria que desestimó cargos contra Meta al dictaminar que “simplemente afirmar ‘nuestro trabajo fue utilizado’ no es suficiente”.
Sentencias previas favorables a OpenAI y Anthropic marcan el clima judicial en este terreno: los jueces han determinado que los autores no lograron probar un daño al mercado, aunque algunos han criticado de forma explícita la existencia de una biblioteca permanente de libros pirata en posesión de desarrolladores de IA.
Sin embargo, Sharma advierte que “usar conjuntos de datos públicos como RedPajama o The Pile no borra automáticamente la infracción intencional”, precisando que “si sabían o ignoraron que se incluían obras con derechos de autor, los tribunales aún podrían encontrar un desprecio imprudente”.

Desde su perspectiva, solo si la inteligencia artificial puede reproducir de manera literal elementos significativos de la obra original, podría considerarse que los pesos del modelo en sí mismos constituyen infracción directa.
Peticiones de las autoras y el impacto potencial para Salesforce
Las escritoras Tanzer y Gilmore buscan la certificación de clase colectiva para todos los titulares de derechos de autor estadounidenses cuyas obras hayan sido utilizadas por Salesforce desde octubre de 2022. Entre sus exigencias figuran daños estatutarios, destrucción de copias infractoras, confiscación de posibles ganancias, una declaración formal sobre infracción intencional y el pago de honorarios legales.
El desarrollo de este litigio es seguido de cerca no solo por Salesforce, sino por todo el sector de inteligencia artificial generativa y procesamiento de datos. El resultado podría establecer nuevos precedentes sobre los límites legales en la utilización de material protegido para la creación y entrenamiento de herramientas de IA, así como definir las obligaciones de transparencia respecto a los datos empleados por grandes empresas tecnológicas.
Últimas Noticias
Surge un malware avanzado en Android que afecta a aplicaciones financieras y servicios bancarios
La nueva amenaza, llamada Albiriox, permite a los atacantes controlar teléfonos Android y ejecutar fraudes bancarios sin requerir contraseñas del usuario

¿El uso de griefbots puede ayudar a las personas que atraviesan procesos de duelo?
Una investigación identificó casos en que reportaron beneficios emocionales al interactuar con herramientas impulsadas por IA. Aunque especialistas advirtieron en Scientific American sobre riesgos psicológicos y la necesidad de supervisión profesional

Starlink advierte a sus clientes sobre los riesgos de cambiar de plan: esto debes considerar antes de hacerlo
Starlink aplica cambios inmediatos solo en los planes de mayor costo, mientras que las tarifas inferiores entran en vigor al finalizar el ciclo de facturación

Sorteo del Mundial 2026: a qué hora, dónde verlo y más preguntas trend en Google
Bombos, formatos y más búsquedas se están haciendo en todo el mundo en Google Chrome
Ethereum: cuál es el precio de esta criptomoneda este 5 de diciembre
Ethereum fue lanzada en 2015 por el programador Vitalik Buterin, con la intención de impulsar un instrumento para aplicaciones descentralizadas y colaborativas



