‘No a las máquinas que cosechan contenido’: estallan revueltas de datos contra la IA

Reportajes Especiales - Business

Compartir
Compartir articulo
infobae

Durante más de 20 años, Kit Loffstadt ha escrito historias de fanficción que exploran universos alternativos para los héroes de “La guerra de las galaxias” y los villanos de “Buffy, la cazavampiros”, y comparte sus historias de manera gratuita en línea.

Pero en mayo, Loffstadt dejó de publicar sus creaciones después de enterarse de que una empresa de datos las había copiado e introducido en la tecnología de inteligencia artificial que subyace a ChatGPT, un chatbot viral. Consternada, escondió sus escritos en una cuenta privada.

El mes pasado, Loffstadt también ayudó a organizar un acto de rebelión contra los sistemas de inteligencia artificial. Junto con decenas de otros escritores de fanficción, publicó una avalancha de historias irreverentes en línea con el objetivo de abrumar y confundir a los servicios de recopilación de datos que usan el trabajo de los escritores para entrenar a la tecnología de IA.

“Cada uno tiene que hacer todo lo posible para demostrarles que las máquinas no pueden cosechar a su antojo los resultados de nuestra creatividad”, afirmó Loffstadt, quien es una actriz de doblaje de 42 años de Yorkshire del Sur en el Reino Unido.

Los escritores de fanficción son solo uno de los grupos que están organizando revueltas contra los sistemas de inteligencia artificial ahora que la fiebre por esta tecnología se ha apoderado de Silicon Valley y del mundo. En los últimos meses, empresas de redes sociales como Reddit y Twitter, organizaciones de noticias como The New York Times y NBC News, autores como Paul Tremblay y la actriz Sarah Silverman se han pronunciado en contra de que la IA absorba sus datos sin permiso.

Las protestas se han producido de diversas maneras. Los escritores y artistas están bloqueando sus archivos para proteger su trabajo o están boicoteando ciertos sitios web que publican contenido generado por IA, mientras que empresas como Reddit quieren cobrar por el acceso a sus datos. Este año, se han presentado al menos diez demandas contra empresas de inteligencia artificial, en las que se les acusa de entrenar a sus sistemas con el trabajo creativo de artistas sin consentimiento. La semana pasada, Silverman y los autores Christopher Golden y Richard Kadrey demandaron a OpenAI, el creador de ChatGPT, y a otros por el uso que hace la inteligencia artificial de su trabajo.

Al centro de las rebeliones existe una nueva comprensión de que la información en línea —historias, obras de arte, artículos de noticias, publicaciones en foros de mensajes y fotos— puede tener un valor significativo sin explotar.

La nueva ola de inteligencia artificial, conocida como “IA generativa” por el texto, las imágenes y otro contenido que puede generar, se basa en sistemas complejos como los modelos grandes de lenguaje, que son capaces de producir una prosa similar a la humana. Estos modelos están entrenados con reservas de todo tipo de datos para poder responder a las preguntas de las personas, imitar estilos de escritura o producir comedia y poesía.

Eso ha hecho que las empresas de tecnología busquen más datos para alimentar sus sistemas de IA. En esencia, Google, Meta y OpenAI han utilizado información de todos los rincones del internet, incluidas grandes bases de datos de fanficción, conjuntos de artículos de noticias y colecciones de libros, muchos de los cuales estaban disponibles en línea de manera gratuita. En la jerga de la industria tecnológica, esto se conoce como “raspado web”, o “web scraping”.

Es poco probable que las protestas de datos tengan mucho impacto a largo plazo. Los gigantes tecnológicos con mucho dinero como Google y Microsoft ya tienen acceso a montañas de información patentada y tienen los recursos para obtener más licencias. Pero a medida que la era del contenido “fácil de raspar” llega a su fin, es posible que las nuevas empresas más pequeñas de IA y las organizaciones sin fines de lucro que esperaban competir con las grandes empresas no puedan obtener suficiente contenido para entrenar a sus sistemas.

En un comunicado, OpenAI declaró que ChatGPT fue entrenado con “contenido obtenido a partir de licencias, contenido disponible para todo público y contenido creado por entrenadores humanos de IA”. Y agregó: “Respetamos los derechos de los creadores y autores, y esperamos continuar trabajando con ellos para proteger sus intereses”.

Google dijo en un comunicado que estaba en conversaciones sobre cómo los editores podrían administrar su contenido en el futuro. “Creemos que todos se benefician de un ecosistema de contenido vibrante”, afirmó la compañía. Microsoft no respondió a nuestra solicitud de comentarios.

Las revueltas de datos estallaron el año pasado después de que ChatGPT se convirtiera en un fenómeno mundial. En noviembre, un grupo de programadores presentó una propuesta de demanda colectiva contra Microsoft y OpenAI, con el argumento de que las empresas habían violado sus derechos de autor después de que se usó su código para capacitar a un asistente de programación impulsado por inteligencia artificial.

En enero, Getty Images, que proporciona fotos y videos de archivo, demandó a Stability AI, una empresa de inteligencia artificial que crea imágenes a partir de descripciones de texto, alegando que la empresa emergente había usado fotos protegidas con derechos de autor para entrenar a sus sistemas.

Luego, en junio, Clarkson, un bufete de abogados en Los Ángeles, presentó una propuesta de demanda colectiva de 151 páginas contra OpenAI y Microsoft, en la que describe cómo OpenAI recopiló datos de menores y asevera que el raspado web viola la ley de derechos de autor y constituye un “robo”. El martes, la firma presentó una demanda similar contra Google.

“La rebelión de datos que estamos viendo en todo el país es la manera en que la sociedad rechaza esta idea de que las grandes empresas de tecnología simplemente tienen derecho a tomar toda la información de cualquier fuente y hacerla propia”, sostuvo Ryan Clarkson, el fundador de Clarkson.

Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara, dijo que los argumentos de la demanda eran amplios y que era poco probable que el tribunal los aceptara. Pero advirtió que la ola de litigios apenas comienza, ya que se avecinan una “segunda y tercera ola” que definirán el futuro de la IA.

Las empresas más grandes también están rechazando el raspado web. En abril, Reddit declaró que quería cobrar por el acceso a su interfaz de programación de aplicaciones, el método con el cual terceras partes pueden descargar y analizar la inmensa base de datos de conversaciones personales en esa red social.

El director ejecutivo de Reddit, Steve Huffman, dijo en ese momento que su empresa no “necesitaba regalar todo ese valor a algunas de las empresas más grandes del mundo”.

Ese mismo mes, Stack Overflow, un sitio de preguntas y respuestas para programadores de computadoras, comunicó que también les pedirá a las empresas de inteligencia artificial que paguen por los datos. El sitio tiene casi 60 millones de preguntas y respuestas. Su decisión se dio a conocer primero en la publicación Wired.

Las organizaciones de noticias también se resisten a los sistemas de IA. En junio, en un memorando interno sobre el uso de la inteligencia artificial generativa, el Times dijo que las empresas de IA deberían “respetar nuestra propiedad intelectual”. Un portavoz del Times se negó a dar más detalles.

Para los artistas y escritores particulares, la lucha contra los sistemas de inteligencia artificial ha significado repensar dónde publican.

Nicholas Kole, un ilustrador de 35 años en Vancouver, Columbia Británica, se sintió alarmado al ver cómo un sistema de IA podía replicar su estilo artístico distintivo y sospechaba que la tecnología había extraído su trabajo por medio del raspado web. Planea seguir publicando sus creaciones en Instagram, Twitter y otros sitios de redes sociales para atraer clientes, pero dejó de publicar en sitios como ArtStation, donde se sube contenido generado por IA junto con contenido hecho por humanos.

“Simplemente se siente como un robo sin sentido de mi trabajo y el de otros artistas”, dijo Kole. “Me hace sentir un temor existencial en el estómago”.

Steve Huffman, director ejecutivo de Reddit, en la oficina de la empresa en Nueva York, el 23 de mayo de 2023. (Amy Lombard/The New York Times).

Sarah Silverman en Nueva York, el 14 de abril de 2022. (Mark Sommerfeld/The New York Times).