Las decisiones sobre el uso legítimo de la IA son un buen augurio para la industria de los semiconductores
Recientemente se dictó sentencia sumaria a favor de los demandados basándose en el uso legítimo en dos acciones por infracción de derechos de autor que cuestionaban el entrenamiento de modelos de lenguaje grandes (LLM), una contra Meta en relación con sus LLM Llama[1] y otra contra Anthropic en relación con sus LLM Claude[2]. Las decisiones son un buen augurio para el desarrollo continuo de la industria de la IA generativa y, por lo tanto, para la industria de los semiconductores, que está construyendo la infraestructura y las capas superiores de la pila tecnológica de la IA generativa.
En ambos casos, los autores impugnaron la descarga no autorizada de sus obras protegidas por derechos de autor y su copia y uso para entrenar modelos de lenguaje grande (LLM), y en el caso de Anthropic, también la creación de una biblioteca digital de uso general. Ninguno de los dos casos implicó impugnaciones a los resultados de los LLM.
Formación LLM
El entrenamiento de un LLM implica el uso de una enorme cantidad de textos (incluidos, en el caso de Claude y Llama, millones de libros), que se copian en un proceso de varios pasos que comienza con la traducción de cada texto a secuencias cortas de palabras y signos de puntuación denominadas «tokens», que son las unidades sobre las que se realiza el entrenamiento. A continuación, el entrenamiento implica el uso de un modelo lingüístico estadístico para aprender patrones a partir de estos textos «tokenizados», lo que incluye predecir la siguiente palabra de una secuencia, dado el contexto de las palabras anteriores, y luego repetir el proceso. La predicción se compara con el original y el modelo estadístico se ajusta en consecuencia para que la próxima vez sea más probable que la predicción sea correcta. El modelo estadístico de lenguaje funciona mediante el uso de «vectores», que son una especie de matriz multidimensional que captura la relación (denominada «ponderaciones») entre diferentes palabras, patrones gramaticales o temas de historias. A nivel general, el tribunal de Anthropic describió el entrenamiento como el uso de las obras de los autores para «mapear iterativamente las relaciones estadísticas entre cada fragmento de texto y cada secuencia de fragmentos de texto, de modo que un LLM completado pudiera recibir nuevas entradas de texto y devolver nuevas salidas de texto como si fuera un humano leyendo indicaciones y escribiendo respuestas».
Ley de derechos de autor y uso legítimo
La política que sustenta la Ley de Derechos de Autor de 1976 es promover el progreso de la ciencia y las artes mediante el fomento de la creación de nuevas obras creativas por parte de los autores. El artículo 106 de la Ley de Derechos de Autor de 1976 otorga al titular de los derechos de autor la exclusividad con respecto a una serie de acciones, como la reproducción, la preparación de obras derivadas y la distribución de copias. No otorga el monopolio sobre todos los usos de la obra protegida por derechos de autor. El artículo 107 de la Ley de Derechos de Autor establece la defensa afirmativa del «uso legítimo» para actos que, de otro modo, infringirían los derechos exclusivos del titular de los derechos de autor, cuya prueba incluye los cuatro factores siguientes:
(1) El propósito y carácter del uso, incluyendo si dicho uso es de naturaleza comercial o tiene fines educativos sin ánimo de lucro;
(2) La naturaleza de la obra protegida por derechos de autor;
(3) La cantidad y la importancia de la parte utilizada en relación con la obra protegida por derechos de autor en su conjunto; y
(4) El efecto del uso sobre el mercado potencial o el valor de la obra protegida por derechos de autor.
El uso legítimo es una defensa afirmativa que se aplica de manera integral y se ha descrito como una «regla equitativa de la razón».[3] Los tribunales suelen considerar que el primer y el cuarto factor son los más significativos, siendo el cuarto especialmente importante.
La decisión antrópica
Los materiales utilizados por Anthropic incluían millones de libros descargados de fuentes piratas y millones de libros impresos que Anthropic compró y escaneó en formato digital con texto legible por máquina. El objetivo era crear una biblioteca de investigación general para su posible uso futuro y para entrenar a Claude.
El juez Alsup dividió su análisis en dos partes: el uso de libros para la formación de los LLM y el uso de libros para crear una biblioteca central. Sostuvo que tanto el uso para la formación como la digitalización de los libros adquiridos para crear una biblioteca central constituían un uso legítimo, pero que el uso de libros pirateados para crear una biblioteca central no lo era. Dejó claro que la sentencia sumaria no se extendía a las futuras copias realizadas a partir de la biblioteca central que no se utilizaran para la formación de los LLM.
Con respecto al primer factor, el juez Alsup sostuvo que el propósito y el carácter del uso de las obras protegidas por derechos de autor para entrenar a los LLM a generar nuevos textos era «esencialmente transformador». El uso no consistía simplemente en memorizar y replicar las obras con las que se entrenaba, sino en «aprender de ellas y crear algo diferente, como un lector que aspira a ser escritor». En consecuencia, el primer factor se inclinó a favor del uso legítimo de las copias de entrenamiento.
En lo que respecta a las copias utilizadas para crear la biblioteca central, el juez Alsup dividió su análisis entre las copias pirateadas y las que Anthropic compró en formato impreso y luego convirtió a formato digital. Sostuvo que este último grupo, que facilitaba el almacenamiento y la búsqueda y no daba lugar a que se compartieran nuevas copias con terceros, era transformador. Por otro lado, el juez Alsup sostuvo que el uso de las obras pirateadas era «intrínsecamente irremediable» y que su uso para crear una biblioteca de investigación no era transformador. El juez Alsup distinguió otras decisiones, entre ellas aquellas en las que las copias no estaban disponibles para su compra o préstamo, las copias se transformaron en una forma significativamente diferente o el demandado ya poseía copias autorizadas.
El juez Alsup sostuvo que el segundo factor —la naturaleza de la obra protegida por derechos de autor— pesaba en contra del uso legítimo, ya que las obras en cuestión tenían un contenido expresivo, que gozaba de mayor protección en virtud de las leyes de derechos de autor que las obras basadas en hechos reales.
El juez Alsup sostuvo que el tercer factor —la cantidad y la importancia de la obra utilizada— implicaba evaluar si la cantidad de material protegido por derechos de autor era razonable en relación con el propósito de la copia. La clave del análisis no era la cantidad de texto copiado, sino la cantidad que se ponía a disposición del público. En lo que respecta a la formación, el juez Alsup sostuvo que, aunque se utilizaron los libros completos, no se alegó que el material se pusiera a disposición del público como resultado. Consideró que el tercer factor favorecía el uso legítimo para la formación debido a la gran cantidad de datos que Anthropic necesitaba razonablemente para entrenar sus LLM. Con respecto a la creación de una biblioteca central, el juez Alsup sostuvo que el tercer factor favorecía el uso legítimo de las copias compradas, pero se oponía al uso legítimo de las copias pirateadas, dado que Anthropic no tenía ningún derecho a conservarlas.
El juez Alsup sostuvo que el cuarto factor —la dilución del mercado— también favorecía el uso legítimo en relación con el entrenamiento de los LLM. Sostuvo que el cuarto factor se centra en la medida en que el uso impugnado actúa como una sustitución real o potencial en el mercado de la obra protegida por derechos de autor. El juez Alsup señaló que los autores admitieron que los LLM no producían copias exactas ni imitaciones infractoras de las obras de los autores. En cambio, los autores argumentaron que los LLM «darían lugar a una explosión de obras que competirían con las suyas». El juez Alsup comparó el argumento de los demandantes con una queja de que «enseñar a los escolares a escribir bien» también daría lugar a una explosión de obras competidoras y sostuvo que «este no es el tipo de desplazamiento competitivo o creativo que preocupa a la Ley de Derechos de Autor. La ley busca promover las obras originales de autoría, no proteger a los autores contra la competencia» (citando Sega Enterprises Ltd. V. Accolade, Inc., 977 F.2d 1510, 1523-24 (9.º Cir. 1992)). El juez Alsup también rechazó los argumentos de los demandantes de que el entrenamiento de los LLM perjudicaría a un mercado emergente de concesión de licencias para entrenar LLM, sosteniendo que la Ley de Derechos de Autor no da derecho a los demandantes a explotar un mercado de este tipo que podría desarrollarse.
El juez Alsup sostuvo que el cuarto factor era neutral con respecto a las copias de la biblioteca adquiridas que se convirtieron a formato digital y se oponía al uso legítimo de las obras pirateadas, dado que las copias pirateadas «desplazaron claramente la demanda» de los libros de los demandantes.
El juez Alsup, tras sopesar todos los factores, aceptó la moción de Anthropic para un fallo sumario sobre el tema del uso justo con respecto a las copias de entrenamiento y los libros comprados legalmente para crear una biblioteca digital, pero rechazó el fallo sumario para Anthropic sobre las copias piratas, dejando la decisión para el juicio.
La meta decisión
La decisión sobre Meta se refería a una demanda presentada por 13 autores contra Meta por descargar sus obras de las denominadas «bibliotecas en la sombra» de obras pirateadas y utilizarlas para entrenar el LLM de Meta. Una diferencia clave entre las dos decisiones fue la importancia primordial que el juez Chhabria otorgó al cuarto factor y su opinión, expresada en un extenso dictamen, de que, en muchos casos, la conducta de los LLM puede no superar la prueba de uso legítimo, ya que los LLM a menudo «socavan drásticamente el mercado» de los materiales con los que se entrenan. A modo de ejemplo, el juez Chhabria especuló que un LLM capaz de producir infinitos libros sobre cómo cuidar un jardín podría reducir en gran medida el mercado de los libros de jardinería escritos por humanos. Indicó que la decisión del juez Alsop en el caso Anthropic se centró excesivamente en la naturaleza transformadora de la IA generativa (el primer factor en el análisis del uso legítimo), «mientras que dejó de lado las preocupaciones sobre el daño que puede infligir al mercado de las obras con las que se entrena» (el cuarto factor). Por lo tanto, el juez Chhabria pareció respaldar un argumento de dilución del mercado que, basándose en Sega, el juez Alsop rechazó rotundamente. Esta teoría también fue respaldada recientemente por la Oficina de Derechos de Autor de los Estados Unidos en su informe de mayo de 2025 «Copyright and Artificial Intelligence» (Derechos de autor e inteligencia artificial), aunque reconociendo que se trata de un «territorio inexplorado». El juez Chhabria planteó una serie de cuestiones relacionadas con el análisis de la dilución del mercado, entre ellas si Llama era capaz de generar libros y, en caso afirmativo, qué tipo de libros, qué impacto tendría en la competencia y cuál sería el impacto en el mercado de los libros de los demandantes si Llama pudiera utilizar sus libros para el entrenamiento frente a la imposibilidad de utilizarlos.
Ambos jueces rechazaron otro argumento relativo al cuarto factor, según el cual la formación no autorizada de LLM perjudicaba al mercado de licencias de libros para la formación de LLM. Ambos tribunales consideraron que no se trataba del tipo de mercado que la Ley de Propiedad Intelectual autoriza a los demandantes a explotar.
En cuanto al primer factor, el juez Chhabria también coincidió finalmente en que el uso de los LLM era transformador, lo cual es clave para determinar que el primer factor favorece el uso legítimo. Sin embargo, el juez Chhabria adoptó un enfoque diferente al del juez Alsup en cuanto a si el análisis debía centrarse en la formación de los LLM como único «uso». El juez Chhabria rechazó el intento de los demandantes de bifurcar el análisis entre la descarga de los libros por parte de Meta y el uso de los libros para la formación de los LLM, afirmando que la descarga debe considerarse a la luz del objetivo final de la formación de los LLM. El juez Alsup permitió un análisis bifurcado, aunque con respecto a la creación de una biblioteca, en lugar de simplemente la descarga. Utilizando este enfoque bifurcado, el juez Alsup sostuvo que el uso de obras pirateadas en la biblioteca pesaba en contra del uso legítimo. El juez Chhabria, por su parte, solo consideró el uso de bibliotecas paralelas en relación con su análisis unitario y descartó su importancia. El juez Chhabria sostuvo que, si bien era relevante para la cuestión de la mala fe y podría haber sido significativo si las descargas de Meta hubieran formado parte de un intercambio de archivos entre pares que hubiera contribuido a perpetuar las bibliotecas paralelas, ese no era el caso aquí.
¿Cuáles son las implicaciones para el desarrollo futuro de los LLM?
Existe un claro reconocimiento de la importante naturaleza transformadora de los LLM, lo cual es un factor importante que favorece el uso legítimo. Un punto débil para futuras decisiones es el respaldo del juez Chhabria a una prueba de dilución del mercado. Pero este respaldo debe considerarse a la luz de las cuestiones relacionadas que él planteó. Es importante destacar que se trata de una investigación que depende en gran medida de la naturaleza del mercado. Es una suposición segura (por ahora) que la mayoría de los usuarios de LLM no escriben novelas, por lo que la «explosión» de novelas generadas por LLM que compiten entre sí puede acabar siendo más una preocupación teórica. Pero para otras obras, por ejemplo, artículos de noticias, biografías y otras obras de no ficción que pueden ser producidas rápidamente en masa por los LLM, el juez Chhabria sugirió que puede haber preocupaciones de dilución del mercado. La opinión del juez Chhabria también se aplica fuera de las obras basadas en texto. Por ejemplo, un LLM entrenado con el catálogo de un compositor específico podría producir obras que diluyeran el mercado de la música de ese artista o de cualquier género asociado exclusivamente con él, desincentivando al artista y posiblemente a otros a seguir creando música en ese ámbito. Unas barreras de protección adecuadas podrían limitar la exposición a reclamaciones por dilución del mercado, en caso de que la teoría de la dilución del mercado ganara fuerza judicial.
Otra conclusión que se puede extraer de las decisiones es que se debe evitar el uso de obras pirateadas en relación con la formación. En el caso Anthropic, el hecho de que los libros fueran pirateados pesó mucho en contra del uso legítimo. Y en el caso Meta, el juez Chhabria también dejó abierta la posibilidad de que el uso de obras pirateadas pudiera ser relevante para un análisis de uso legítimo.
Una tercera conclusión es que en ambas decisiones fue importante que los LLM no pudieran reproducir más que fragmentos muy breves de los materiales de formación. Por lo tanto, los LLM deben seguir incluyendo barreras de seguridad que impidan la memorización y la repetición de fragmentos extensos de los materiales de formación. Por ejemplo, la decisión del juez Chhabria hizo hincapié en cómo se configuró Llama para que no devolviera más de 50 palabras de cualquier fuente de formación dada.
Un aspecto relacionado es que los casos no se referían a resultados. Por consiguiente, las decisiones no abordan la situación en la que un LLM produce una réplica no autorizada de una obra protegida por derechos de autor, ya sea mediante un proceso generativo o mediante memorización.
Como se ha indicado anteriormente, las decisiones no proporcionan una razón de peso para frenar el sector de la IA generativa, ni los mercados parecen haberlas interpretado así. El crecimiento continuado impulsará una mayor demanda de los productos semiconductores necesarios para respaldar ese crecimiento. Además, incluso si se detectara una infracción de los derechos de autor en un caso futuro, el riesgo de responsabilidad secundaria para los fabricantes de chips parece insignificante, dadas las defensas disponibles, como las basadas en la existencia de usos no infractores.
[1] Kadrey contra Meta Platforms, Inc., n.º 3:23-cv-03417-VC (Tribunal de Distrito Norte de California, 25 de junio de 2025).
[2] Bartz contra Anthropic PBC, n.º 3:24-cv-05417-WHA (Tribunal de Distrito Norte de California, 23 de junio de 2025).
[3] Google LLC contra Oracle Am., Inc., 593 U.S. 1, 19 (2021).