Cómo Silicon Valley construyó la IA con millones de libros

Guardar

El Proyecto Panamá impulsado por Anthropic destinó millones de dólares a la adquisición y destrucción de libros físicos para desarrollar inteligencia artificial

A principios de 2024, los ejecutivos de la startup de inteligencia artificial Anthropic impulsaron un ambicioso proyecto que pretendían mantener en secreto. “El Proyecto Panamá es nuestro esfuerzo por escanear destructivamente todos los libros del mundo”, decía un documento de planificación interna revelado en documentos legales la semana pasada. “No queremos que se sepa que estamos trabajando en esto”.

En aproximadamente un año, según los documentos presentados, la compañía había gastado decenas de millones de dólares para adquirir y cortar los lomos de millones de libros antes de escanear sus páginas para alimentar con más conocimiento los modelos de inteligencia artificial detrás de productos como su popular chatbot Claude.

Los detalles del Proyecto Panamá, que no se habían divulgado previamente, surgieron en más de 4.000 páginas de documentos en una demanda por derechos de autor interpuesta por autores de libros contra Anthropic, empresa valorada por los inversores en 183.000 millones de dólares. La compañía acordó pagar 1.500 millones de dólares para resolver el caso en agosto, pero la decisión de un juez de distrito la semana pasada de revelar una serie de documentos del caso reveló con mayor detalle el ferviente interés de Anthropic por los libros.

Los nuevos documentos, junto con presentaciones anteriores en otros casos de derechos de autor contra empresas de IA, muestran hasta dónde llegaron empresas tecnológicas como Anthropic, Meta, Google y OpenAI para obtener enormes cantidades de datos con los que “entrenar” su software.

Grandes empresas tecnológicas como Meta, Google y OpenAI compitieron por escanear millones de libros sin autorización para entrenar sus modelos de IA

El caso Anthropic formó parte de una ola de demandas interpuestas contra empresas de inteligencia artificial por autores, artistas, fotógrafos y medios de comunicación. Los documentos presentados en los casos muestran a las principales empresas tecnológicas en una carrera frenética, a veces clandestina, por adquirir las obras recopiladas de la humanidad.

Los libros eran considerados un premio crucial por las empresas, según consta en los registros judiciales. En un documento de enero de 2023, un cofundador de Anthropic teorizó que entrenar modelos de IA con libros podría enseñarles a escribir bien en lugar de imitar el lenguaje de internet de baja calidad. Un correo electrónico de 2024 dentro de Meta describía el acceso a un tesoro digital de libros como esencial para competir con sus rivales de IA.

Sin embargo, los registros judiciales sugieren que las empresas no consideraron práctico obtener permiso directo de editoriales y autores para usar su obra. En cambio, Anthropic, Meta y otras empresas encontraron maneras de adquirir libros al por mayor sin el conocimiento de los autores, según los documentos judiciales, incluso descargando copias piratas.

En varias ocasiones, los empleados de Meta expresaron su preocupación en mensajes internos sobre la posible violación de la ley de derechos de autor al descargar una colección de millones de libros sin permiso. En diciembre de 2023, un correo electrónico interno indicó que la práctica había sido aprobada tras una “escalada a MZ”, una aparente referencia al director ejecutivo Mark Zuckerberg, según los documentos presentados en una demanda por derechos de autor interpuesta por autores de libros contra la empresa. Meta declinó hacer comentarios para este artículo.

Un conjunto de compañías líderes del sector digital, incluida Meta, ha utilizado millones de obras literarias, en ocasiones sin autorización de autores ni editoriales, para alimentar modelos de IA y mejorar sus capacidades lingüísticas

En una presentación legal recientemente publicada, Anthropic reveló que el cofundador Ben Mann descargó personalmente un botín de ficción y no ficción de una “biblioteca paralela” de libros y otro contenido que infringe los derechos de autor llamada LibGen durante un período de 11 días en junio de 2021. Una captura de pantalla de su navegador web incluida en los documentos lo muestra descargando archivos con un software para compartir archivos.

Un año después, Mann celebró el lanzamiento en julio de 2022 de un nuevo sitio web llamado Pirate Library Mirror, que afirmaba tener una enorme base de datos de libros y había declarado: “Violamos deliberadamente la ley de derechos de autor en la mayoría de los países”. Mann envió un enlace al sitio a otros empleados de Anthropic con el mensaje: “¡Justo a tiempo!“.

Anthropic afirmó en documentos legales que la compañía nunca entrenó un modelo de IA comercial que generara ingresos utilizando sus datos de LibGen y que nunca utilizó Pirate Library Mirror para entrenar ningún modelo de IA completo.

Ed Newton-Rex, exejecutivo de IA y compositor musical que ahora dirige una organización sin fines de lucro que defiende los derechos de los creadores, afirmó que las revelaciones subrayan que las empresas de IA tienen una deuda con los creadores mayor de la que han pagado hasta ahora. “Necesitamos urgentemente un reajuste en toda la industria de la IA, para que los creativos comiencen a recibir una remuneración justa por las contribuciones vitales que realizan”, afirmó.

Google, Microsoft y OpenAI, creador de ChatGPT, también enfrentan demandas por derechos de autor por parte de autores de libros que presentan acusaciones similares. (The Washington Post tiene un acuerdo de contenido con OpenAI.)

La mayoría de los casos legales contra empresas de IA siguen en curso, y James Grimmelmann, profesor de derecho digital y de la información en Cornell Tech, afirmó que las cuestiones que plantean aún no han sido resueltas. Sin embargo, en dos fallos preliminares, los jueces han determinado que el uso de libros por parte de empresas tecnológicas para entrenar modelos de IA sin la autorización del autor o la editorial puede ser legal según una doctrina de la legislación sobre derechos de autor conocida como “uso legítimo”.

En junio, el juez de distrito William Alsup dictaminó que Anthropic tenía derecho a usar libros para entrenar modelos de IA porque procesan el material de forma “transformadora”. Comparó el proceso de entrenamiento de IA con el de los profesores que “enseñan a los escolares a escribir bien”. Ese mismo mes, el juez de distrito Vince Chhabria dictaminó en el caso Meta que los autores de los libros no habían demostrado que los modelos de IA de la compañía pudieran perjudicar las ventas de sus libros.

La demanda colectiva contra Anthropic reveló la descarga y almacenamiento de libros pirateados de bibliotecas digitales sin consentimiento de los autores

Pero las empresas aún pueden verse en problemas por su forma de adquirir libros. En el caso de Anthropic, el proyecto de escaneo de libros fue aprobado, pero el juez determinó que la empresa podría haber infringido los derechos de autor de los autores al descargar millones de libros pirateados gratuitamente antes de lanzar el Proyecto Panamá.

Alsup concedió el estatus de demanda colectiva a los autores cuyos libros se incluyeron en dos bibliotecas paralelas (enormes colecciones de libros digitalizados compartidos en línea sin autorización) que Anthropic había descargado y almacenado para su uso futuro. En lugar de enfrentarse a un juicio, la compañía acordó pagar 1.500 millones de dólares a editoriales y autores sin admitir ninguna irregularidad. Los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dólares por título.

“Este caso se ha resuelto, pero el fallo histórico del tribunal de junio de 2025 se mantiene intacto”, declaró la consejera general adjunta de Anthropic, Aparna Sridhar, en un correo electrónico a The Post. “El juez Alsup sostuvo que el entrenamiento de IA fue ‘esencialmente transformador’: los modelos de IA de Anthropic entrenados no buscaban ‘replicarlos ni suplantarlos’, sino superar una situación difícil y crear algo diferente”. La cuestión que resolvimos se centró en cómo se adquirieron algunos materiales, no en si podíamos usarlos para desarrollar modelos de IA.

- - -

Cuando Anthropic emprendió su Proyecto Panamá para comprar y escanear libros físicos, recurrió a un veterano de Silicon Valley. La compañía contrató a Tom Turvey, un ejecutivo de Google que había ayudado a crear el famoso, pero legalmente controvertido, proyecto Google Books del gigante de las búsquedas dos décadas antes.

Anthropic inicialmente consideró comprar libros en bibliotecas o librerías de segunda mano, como el emblemático Strand de Nueva York, conocido por sus 29 kilómetros de libros nuevos y usados, según los documentos. La tienda estaba “interesada en proporcionar libros usados”, según un documento que detalla una reunión de adquisición de contenido de Anthropic en marzo de 2024.

Los empleados de Anthropic también discutieron la posibilidad de acercarse a bibliotecas estadounidenses, incluida la Biblioteca Pública de Nueva York [NYPL, por sus siglas en inglés] o “una nueva biblioteca que padece una subfinanciación crónica”, según los documentos.

No está claro cuál de las propuestas implementó Anthropic, si es que implementó alguna. Contactado por correo electrónico, un portavoz del Strand afirmó que la librería no vendió ningún libro a Anthropic. La NYPL no respondió a una solicitud de comentarios.

Anthropic finalmente adquirió millones de libros, a menudo en lotes de decenas de miles, según los documentos presentados. Dependía de libreros, entre ellos las tiendas de libros usados Better World Books y World of Books, con sede en el Reino Unido.

Jueces federales dictaminaron que el uso de libros para entrenar modelos de inteligencia artificial puede considerarse legítimo si resulta transformador

La cantidad final de libros escaneados y su costo están redactados en los documentos, pero una propuesta de proyecto de un proveedor que finalmente trabajó con Anthropic señaló que la empresa de inteligencia artificial estaba “buscando un proveedor experimentado de servicios de escaneo de documentos para convertir de 500.000 a dos millones de libros en un período de seis meses”.

Better World Books y World of Books no respondieron a las solicitudes de comentarios.

El documento describe cómo la máquina de corte hidráulica de la empresa de escaneo cortaba con precisión los libros, cuyas páginas se escaneaban posteriormente en escáneres de alta velocidad, alta calidad y nivel de producción. Finalmente, señala que la empresa de escaneo coordinará con la empresa de reciclaje la recogida de los libros terminados.

- - -

Los documentos publicados en la demanda por derechos de autor contra Meta muestran que los empleados del gigante de las redes sociales también ansiaban más datos y estaban dispuestos a asumir riesgos legales para obtenerlos. Si bien el juez Chhabria falló a favor de Meta en el uso de libros para entrenar modelos de IA, permitió que los autores siguieran adelante con las acusaciones de que Meta distribuyó ilegalmente copias de libros pirateados. Los demandantes buscan que se les conceda el estatus de demanda colectiva por estas reclamaciones en el Distrito Norte de California.

Meta y Anthropic utilizaron plataformas como LibGen y Pirate Library Mirror para obtener grandes volúmenes de libros protegidos por derechos de autor

En su demanda, los autores alegaron que los altos mandos de Meta consideraron pagar por libros para entrenar sus modelos de IA, pero optaron por descargar millones de libros gratis de plataformas de torrents que facilitan la piratería en línea. El diseño de las plataformas suele recompensar a los usuarios que suben material con descargas más rápidas de grandes colecciones de archivos.

Documentos internos, algunos de los cuales ya se habían publicado anteriormente, mostraban a empleados de Meta expresando su preocupación de que lo que estaban haciendo era riesgoso o incorrecto, y discutiendo cómo cubrir sus huellas.

“Descargar torrents desde una laptop corporativa no me parece correcto”, escribió un ingeniero en 2023, según los documentos. Posteriormente, el mismo empleado expresó su preocupación al equipo legal de la empresa por el hecho de que usar sitios de torrents podría implicar compartir contenido pirateado, lo cual “podría ser legalmente inaceptable”.

El correo electrónico de diciembre de 2023, que contiene los documentos judiciales, deja claro que el uso de LibGen había sido aprobado, aparentemente por Zuckerberg, mencionado por sus iniciales. “Tras una escalada previa a MZ, GenAI ha recibido la aprobación para usar LibGen en Llama 3... con una serie de medidas de mitigación acordadas", decía, antes de enumerar los riesgos legales y normativos del uso de los datos.

El acuerdo de Anthropic establece el pago de 1.500 millones de dólares a editoriales y autores, permitiendo a los afectados reclamar hasta 3.000 dólares por título utilizado

“Si hay cobertura mediática que sugiera que hemos utilizado un conjunto de datos que sabemos que está pirateado, como LibGen, esto puede socavar nuestra posición negociadora con los reguladores sobre estos temas”, continuó el correo electrónico.

Para abril de 2024, las comunicaciones internas indicaban que la empresa estaba procediendo a descargar LibGen y otras bibliotecas paralelas. Los registros de chat muestran que un empleado le pidió a otro que aclarara por qué usaban servidores alquilados a Amazon para descargar torrents en lugar de los de Facebook. La respuesta: “Para evitar el riesgo de rastrear la actividad hasta la empresa”.

En una presentación el mes pasado, los abogados de Meta escribieron que la compañía “niega haber distribuido las obras de los demandantes cuando descargó datos de entrenamiento… usando torrents”.

En una demanda independiente, presentada originalmente en 2023, autores de libros acusaron a OpenAI y Microsoft de infringir también la legislación sobre derechos de autor en su búsqueda de libros para el entrenamiento de IA. OpenAI, donde Mann y el director ejecutivo de Anthropic, Dario Amodei, trabajaron antes de cofundar la startup, reconoció haber descargado LibGen, pero declaró ante el tribunal que eliminó los archivos antes del lanzamiento de ChatGPT.

La escasez de permisos directos llevó a las tecnológicas a descargar copias piratas y a buscar aliados en librerías de segunda mano y bibliotecas subfinanciadas

“OpenAI dio el pistoletazo de salida que condujo a la piratería desenfrenada por parte de empresas de IA y a la explotación de toda la expresión humana”, declaró Justin A. Nelson, abogado de Susman Godfrey LLP, quien representa a autores de libros en los casos de OpenAI y Anthropic. OpenAI declinó hacer comentarios para este artículo.

A principios de este mes, dos importantes editoriales pidieron a un tribunal que les permitiera unirse a un grupo de escritores e ilustradores en una demanda por derechos de autor contra Google que se presentó originalmente en 2023.

Grimmelmann, profesor de derecho de Cornell Tech, afirmó que las empresas de IA “se autoconvencieron de una falacia” sobre el uso de datos con derechos de autor. Los avances detrás de ChatGPT y herramientas similares comenzaron en la investigación académica, donde el uso de material con derechos de autor para la capacitación está ampliamente aceptado, explicó, pero los investigadores continuaron con esta práctica incluso cuando se comercializaron los modelos de IA.

“Cuando la tensión se hizo evidente, ya habían realizado enormes inversiones en la incorporación de datos con derechos de autor a sus procesos y estaban atrapados en una competencia rápida y de alto riesgo para lanzar modelos más nuevos y mejores”, dijo Grimmelmann.

La decisión de Anthropic de adquirir y escanear libros físicos en lugar de descargar bibliotecas paralelas resultó ser una decisión inteligente, añadió. “Este sería un buen ejemplo de cómo la empresa adopta un enfoque más moderado y logra el cumplimiento legal”.

* Aaron Schaffer es investigador del departamento de Política y Gobierno del Post.

* Will Oremus escribe para The Washington Post sobre las ideas, los productos y las luchas de poder que configuran el mundo digital. Antes de unirse a The Post en 2021, trabajó durante ocho años como redactor senior de tecnología en Slate y dos años como redactor senior para OneZero en Medium.

Fuente: The Washington Post

[Fotos: Reuters/ Dado Ruvic/ Illustration; Reuters/ Dado Ruvic/ Illustration/File Photo; Gabby Jones/ Bloomberg; Marissa Leshnov/ The New York Times; Pexels]

Últimas Noticias

‘Los amigos de mis papás’ o cómo ser swinger después de los 65 años

Una conversación íntima tras una enfermedad materna da paso a un torbellino creativo. Relaciones, secretos y tabúes salen a la luz en una obra que cuestiona lo aprendido

De Mary Shelley a Thomas Pynchon, el diálogo entre literatura y cine emerge en las películas candidatas al Oscar

‘Frankenstein’, ‘Una batalla tras otra’, ‘Hamnet’ y ‘Sueño de trenes’ muestran cómo los libros siguen marcando el ritmo de las mejores historias que conquistan la pantalla

Salman Rushdie: “Cada vez es más difícil hablar e incluso compartiendo idioma, no nos entendemos”

El escritor de origen indio regresa con ‘La penúltima hora’, un libro de cuentos con un tono crepuscular. “La literatura no puede derrocar regímenes, pero puede aumentar nuestra comprensión del mundo”, asegura

Medio siglo antes que ‘Más que rivales’, Don DeLillo inventó la telenovela del hockey

En 1980, un joven talento literario escondido bajo el seudónimo de Cleo Birdwell, publicó una historia con algunas obscenidades en un medioambiente deportivo

“No Discriminarás”, una exposición que desafía los prejuicios en clave de humor

La muestra de “Pati” Adrián Franco en el Espacio de Arte AMIA transforma el humor gráfico en una poderosa herramienta para combatir discursos de odio y defender la diversidad

Cómo Silicon Valley construyó la IA con millones de libros

Documentos revelados en una demanda por derechos de autor, demuestran una inversión millonaria para digitalizar obras literarias y alimentar los modelos de inteligencia artificial

Comprar, cortar, escanear, reciclar

“No se siente bien”

Últimas Noticias

‘Los amigos de mis papás’ o cómo ser swinger después de los 65 años

Una conversación íntima tras una enfermedad materna da paso a un torbellino creativo. Relaciones, secretos y tabúes salen a la luz en una obra que cuestiona lo aprendido

De Mary Shelley a Thomas Pynchon, el diálogo entre literatura y cine emerge en las películas candidatas al Oscar

‘Frankenstein’, ‘Una batalla tras otra’, ‘Hamnet’ y ‘Sueño de trenes’ muestran cómo los libros siguen marcando el ritmo de las mejores historias que conquistan la pantalla

Salman Rushdie: “Cada vez es más difícil hablar e incluso compartiendo idioma, no nos entendemos”

El escritor de origen indio regresa con ‘La penúltima hora’, un libro de cuentos con un tono crepuscular. “La literatura no puede derrocar regímenes, pero puede aumentar nuestra comprensión del mundo”, asegura

Medio siglo antes que ‘Más que rivales’, Don DeLillo inventó la telenovela del hockey

En 1980, un joven talento literario escondido bajo el seudónimo de Cleo Birdwell, publicó una historia con algunas obscenidades en un medioambiente deportivo

“No Discriminarás”, una exposición que desafía los prejuicios en clave de humor

La muestra de “Pati” Adrián Franco en el Espacio de Arte AMIA transforma el humor gráfico en una poderosa herramienta para combatir discursos de odio y defender la diversidad

Brasil adoptará el VAR que usará FIFA en el Mundial 2026 y un sistema de descensos para los árbitros

Los secretos de la “Nave Especial”, el revolucionario auto ganador del Rally Dakar que correrá en Argentina

El Inter Miami de Lionel Messi compró a un goleador argentino como “Jugador Franquicia”

La curiosa presentación del Pipa Benedetto en su nuevo club

River Plate hizo oficial el fichaje de Kendry Páez, la promesa ecuatoriana que llegó desde el Chelsea

Coki Ramírez habla de “Mujer Salvaje”, la canción que grabó con la voz de Locomotora Oliveras tras su muerte: “Quiero viva su memoria”

Relax, paisajes y próximos desafíos: el verano de Mike Amigorena en Punta del Este

La historia del cocinero Edgardo Ríos: de no poder pagar el alquiler a tener más de diez millones de seguidores

El balance de Carlos Rottemberg sobre la temporada en Mar del Plata: “La única ciudad que cruza playa con teatro”

La respuesta de Roberto García Moritán tras el video de su hija Ana sin chaleco salvavidas a bordo de una lancha

INFOBAE AMÉRICA

La actividad industrial de China cayó en enero por falta de demanda y complica al modelo impuesto por Xi Jinping

Salman Rushdie: “Cada vez es más difícil hablar e incluso compartiendo idioma, no nos entendemos”

Santa Ana impulsa la mayor renovación deportiva del occidente salvadoreño con el proyecto Pro Deportes 2

Cómo una vacuna podría cambiar el destino de los elefantes salvajes y las aldeas rurales en Tailandia

Protestas en Irán: el régimen admitió que arrestó a niños durante la brutal represión

Comprar, cortar, escanear, reciclar

“No se siente bien”

Temas Relacionados

Últimas Noticias

‘Los amigos de mis papás’ o cómo ser swinger después de los 65 años

Una conversación íntima tras una enfermedad materna da paso a un torbellino creativo. Relaciones, secretos y tabúes salen a la luz en una obra que cuestiona lo aprendido

De Mary Shelley a Thomas Pynchon, el diálogo entre literatura y cine emerge en las películas candidatas al Oscar

‘Frankenstein’, ‘Una batalla tras otra’, ‘Hamnet’ y ‘Sueño de trenes’ muestran cómo los libros siguen marcando el ritmo de las mejores historias que conquistan la pantalla

Salman Rushdie: “Cada vez es más difícil hablar e incluso compartiendo idioma, no nos entendemos”

El escritor de origen indio regresa con ‘La penúltima hora’, un libro de cuentos con un tono crepuscular. “La literatura no puede derrocar regímenes, pero puede aumentar nuestra comprensión del mundo”, asegura

Medio siglo antes que ‘Más que rivales’, Don DeLillo inventó la telenovela del hockey

En 1980, un joven talento literario escondido bajo el seudónimo de Cleo Birdwell, publicó una historia con algunas obscenidades en un medioambiente deportivo

“No Discriminarás”, una exposición que desafía los prejuicios en clave de humor

La muestra de “Pati” Adrián Franco en el Espacio de Arte AMIA transforma el humor gráfico en una poderosa herramienta para combatir discursos de odio y defender la diversidad

Brasil adoptará el VAR que usará FIFA en el Mundial 2026 y un sistema de descensos para los árbitros

Los secretos de la “Nave Especial”, el revolucionario auto ganador del Rally Dakar que correrá en Argentina

El Inter Miami de Lionel Messi compró a un goleador argentino como “Jugador Franquicia”

La curiosa presentación del Pipa Benedetto en su nuevo club

River Plate hizo oficial el fichaje de Kendry Páez, la promesa ecuatoriana que llegó desde el Chelsea

Coki Ramírez habla de “Mujer Salvaje”, la canción que grabó con la voz de Locomotora Oliveras tras su muerte: “Quiero viva su memoria”

Relax, paisajes y próximos desafíos: el verano de Mike Amigorena en Punta del Este

La historia del cocinero Edgardo Ríos: de no poder pagar el alquiler a tener más de diez millones de seguidores

El balance de Carlos Rottemberg sobre la temporada en Mar del Plata: “La única ciudad que cruza playa con teatro”

La respuesta de Roberto García Moritán tras el video de su hija Ana sin chaleco salvavidas a bordo de una lancha

INFOBAE AMÉRICA

La actividad industrial de China cayó en enero por falta de demanda y complica al modelo impuesto por Xi Jinping

Salman Rushdie: “Cada vez es más difícil hablar e incluso compartiendo idioma, no nos entendemos”

Santa Ana impulsa la mayor renovación deportiva del occidente salvadoreño con el proyecto Pro Deportes 2

Cómo una vacuna podría cambiar el destino de los elefantes salvajes y las aldeas rurales en Tailandia

Protestas en Irán: el régimen admitió que arrestó a niños durante la brutal represión