近期,两起针对大型语言模型(LLM)训练的版权侵权诉讼中,法院均基于合理使用原则作出有利于被告的即决判决:一起针对Meta公司旗下Llama语言模型的诉讼[1],另一起针对Anthropic公司旗下Claude语言模型的诉讼[2]。这些判决为生成式人工智能产业的持续发展提供了积极信号,进而利好半导体行业——该行业正致力于构建生成式AI技术栈的基础设施与更高层级架构。
在两起案件中,作者均对未经授权下载其受版权保护的作品、将其用于训练大型语言模型(LLMs)的行为提出质疑。其中Anthropic公司案还涉及创建通用数字图书馆的问题。两起案件均未对大型语言模型的输出内容提出质疑。
LLM培训
大型语言模型的训练涉及海量文本(以Claude和Llama为例,包含数百万册书籍),这些文本需经过多步骤处理:首先将每篇文本转换为由单词和标点组成的短序列——即"令牌",这些令牌成为训练的基本单元。 训练过程运用统计语言模型从这些"令牌化"文本中学习模式,包括根据前文上下文预测序列中的下一个单词,并循环重复该过程。 预测结果与原文对比后,统计模型将相应调整,以提高下次预测的准确率。该模型通过"向量"运作——这是一种捕捉不同词汇、语法模式或故事主题关联性(称为"权重")的多维矩阵。 从宏观层面看,Anthropic法庭将训练过程描述为:利用作者作品"反复映射每个文本片段与所有文本片段序列间的统计关系,使训练完成的LLM能够接收新文本输入并输出新文本,如同人类阅读提示并撰写回应一般"。
著作权法与合理使用
1976年《版权法》的立法宗旨在于通过激励作者创作新作品来促进科学与艺术的发展。该法第106条赋予著作权人对特定行为的专有权,包括复制、制作衍生作品及分发副本等,但并不授予对受版权保护作品所有用途的垄断权。 《版权法》第107条为可能侵犯著作权人专有权利的行为提供了"合理使用"的积极抗辩,其判定标准包含以下四项因素:
(1) 使用目的和性质,包括该使用是否具有商业性质或用于非营利性教育目的;
(2) 受版权保护作品的性质;
(3) 所使用部分相对于整个受版权保护作品的数量和实质性;以及
(4) 使用行为对受版权保护作品潜在市场或价值的影响。
合理使用是一种整体适用的积极抗辩,被描述为"公平合理的衡平法则"。[3]法院通常将第一和第四因素视为最关键的考量要素,其中第四因素尤为重要。
人类抉择
Anthropic使用的材料包括从盗版来源下载的数百万册书籍,以及该公司购买并扫描成数字形式的数百万册印刷书籍,这些书籍都具备机器可读文本。此举既是为了创建一个通用研究图书馆以备未来可能使用,也是为了训练Claude。
阿尔苏普法官将分析分为两部分:一本是用于训练LLM的书籍使用,另一本是用于建设中央图书馆的书籍使用。他认为,无论是用于训练还是将购买的书籍数字化以建设中央图书馆,都属于合理使用范畴;但使用盗版书籍建设中央图书馆则不属于合理使用。他明确指出,简易判决不适用于未来从中央图书馆复制且不用于训练LLM的副本。
关于第一项因素,阿尔苏普法官认定,利用受版权保护的作品训练大型语言模型生成新文本的目的与性质具有"典型的转化性"。这种使用并非简单地记忆和复制训练素材,而是"如同渴望成为作家的读者"般从中汲取养分并创造出不同内容。因此,第一项因素支持将训练副本认定为合理使用。
关于用于构建中央图书馆的副本,阿尔斯普法官将分析分为两部分:盗版副本与Anthropic公司购买纸质版后数字化的副本。他认为后者具有转化性——这类副本便于存储和检索,且未导致新副本被分享给第三方。 另一方面,阿尔苏普法官认定盗版作品的使用"本质上构成不可挽回的侵权行为",将其用于构建研究图书馆不构成衍生性使用。阿尔苏普法官特别区分了其他判例情形,包括:无法购买或借阅的副本、副本被转化为显著不同的形式,或被告已持有授权副本的情况。
阿尔苏普法官认为,第二个因素——受版权保护作品的性质——不利于构成合理使用,因为争议作品涉及表达性内容,根据版权法,此类作品比事实性作品享有更高的保护程度。
阿尔苏普法官认为,第三个因素——所使用作品的数量和实质性——涉及对受版权保护材料的数量是否与其复制目的相称的评估。 分析的关键不在于复制了多少文本,而在于向公众提供了多少内容。关于训练用途,阿尔斯普法官认为,尽管使用了整本书,但并无证据表明这些材料作为输出结果向公众提供。 他认定第三因素支持培训行为构成合理使用,因Anthropic为训练其大型语言模型合理所需的大量数据。关于构建中央图书馆的行为,艾斯普法官认为第三因素支持购买副本构成合理使用,但盗版副本则不构成合理使用——鉴于Anthropic根本无权持有这些副本。
阿尔苏普法官认为,第四项因素——市场稀释——同样支持针对训练大型语言模型的合理使用。他指出该因素着重考察被质疑的使用行为在多大程度上构成对受版权保护作品的实际或潜在市场替代。阿尔苏普法官强调,原告方已承认大型语言模型并未生成其作品的精确复制品或侵权仿制品。 相反,原告主张LLM将"导致大量与他们作品竞争的作品涌现"。阿尔斯普法官将原告的论点类比为抱怨"训练学童写好文章"也会导致竞争作品激增,并裁定这"并非《版权法》所关注的竞争性或创造性替代行为"。 该法案旨在促进原创作品的发展,而非保护作者免受竞争影响( 引用Sega Enterprises Ltd. V. Accolade, Inc.案,977 F.2d 1510, 1523-24 (9th Cir. 1992))。 阿尔苏普法官还驳回了原告关于训练大型语言模型将损害新兴的模型训练授权市场的论点,认为《版权法》并未赋予原告开发此类市场的权利。
阿尔苏普法官认为,对于购买的图书馆藏书被转换为数字形式的情况,第四项因素保持中立;而对于盗版作品,该因素则不利于合理使用主张,因为盗版副本"显然取代了"原告书籍的市场需求。
阿尔苏普法官综合考量所有因素后,就训练副本及为构建数字图书馆而合法购置的书籍是否构成合理使用问题,批准了Anthropic公司关于简易判决的动议;但针对盗版副本,法院驳回了Anthropic公司的简易判决请求,将该事项保留至庭审阶段裁决。
元决策
Meta案涉及13位作者对Meta提起的诉讼,指控其从盗版作品的所谓"影子图书馆"下载作品,并用于训练Meta的大型语言模型。 两项裁决的关键差异在于查布里亚法官对第四项因素给予了主要权重,并在冗长的附带意见中阐明:在多数情况下,大型语言模型的行为可能无法通过合理使用测试,因为这些模型往往会"严重破坏"其训练素材的市场。 查布里亚法官举例说明:若大型语言模型能无限生成园艺指南类书籍,将严重削弱人类作者撰写的园艺书籍市场。 他指出阿尔索普法官在Anthropic案判决中过度聚焦生成式AI的转化性质(公平使用分析的首要因素),"却忽视了其对训练素材市场可能造成的损害"(第四因素)。 因此查布里亚法官似乎采纳了市场稀释论点——该理论曾被阿尔索普法官依据世嘉案判例直接驳回。美国版权局在2025年5月发布的《版权与人工智能》报告中亦支持此理论,尽管承认该领域尚属"未知疆域"。 查布里亚法官提出若干涉及市场稀释分析的关键问题:Llama是否具备生成书籍的能力?若具备,可生成何种类型的书籍?对竞争将产生何种影响?当Llama能利用原告书籍进行训练与无法利用时,对原告书籍市场的影响有何差异?
两位法官均驳回了关于第四项因素的另一项主张,即未经授权的大型语言模型培训损害了用于大型语言模型培训的许可书籍市场。两家法院均认定,这并非《版权法》赋予原告开发权的类型市场。
关于第一项因素,查布里亚法官最终也认同大型语言模型(LLM)的使用具有转化性,这是认定第一项因素支持合理使用的重要依据。但针对分析重点是否应聚焦于LLM训练作为唯一"使用"行为,查布里亚法官与阿尔苏普法官采取了不同立场。 查布里亚法官驳回了原告将分析拆分为"Meta下载书籍"与"将书籍用于LLM训练"两部分的尝试,指出必须结合LLM训练的最终目的来考量下载行为。 阿尔斯普法官虽允许二分法分析(但仅限于构建图书馆而非单纯下载),并据此认定图书馆中盗版作品的使用不利于公平使用主张。而查布里亚法官则将影子图书馆的使用纳入统一分析框架,并否定其重要性。 查布里亚法官认为,虽然该行为与恶意问题相关,且若Meta的下载行为属于助长影子图书馆存在的点对点文件共享则可能具有重要意义,但本案并非如此。
这对大型语言模型的未来发展意味着什么?
人们已明确认识到大型语言模型(LLMs)具有显著的变革性特征,这是支持合理使用的重要因素。未来裁决中存在一个薄弱环节,即查布里亚法官对市场稀释测试的认可。但应结合他提出的关联问题来审视这一认可。关键在于,该测试的有效性高度依赖于市场性质。 目前可以合理推测,多数LLM用户并非从事小说创作,因此LLM生成小说的"爆炸式增长"可能更多属于理论层面的担忧。但对于新闻报道、传记及其他非虚构类作品——这类内容可被LLM快速批量生成——查布里亚法官指出可能存在市场稀释风险。 查布里亚法官的论断同样适用于文本类作品之外的领域。例如,以特定作曲家作品集训练的LLM可能产出稀释该艺术家音乐市场或其专属音乐流派的作品,从而削弱艺术家及其潜在合作者在该领域持续创作的动力。若市场稀释理论获得司法认可,建立适当的防护机制可有效规避相关索赔风险。
这些裁决的另一项启示是,应避免在培训中使用盗版作品。在Anthropic案中,书籍系盗版这一事实对合理使用主张产生了重大不利影响。而在Meta案中,查布里亚法官也暗示使用盗版作品可能与合理使用分析相关。
第三个要点在于,两项裁决都强调大型语言模型(LLMs)仅能复现训练材料中极短的片段。因此,LLMs应继续设置防护机制,防止其记忆并复述大量训练材料内容。例如查布里亚法官的裁决特别指出,Llama模型被配置为从任何训练源返回的文本不超过50个单词。
相关的是,这些案例并未涉及输出内容。因此,相关裁决并未涉及大型语言模型(LLM)通过生成过程或记忆方式,未经授权复制受版权保护作品的情形。
如上所述,这些裁决并未提供足以制约生成式人工智能产业发展的充分理由,市场似乎也未作此解读。该行业的持续增长将进一步推动对支撑其发展的半导体产品的需求。此外,即便未来案件中认定存在版权侵权,芯片制造商因存在非侵权用途等可利用的抗辩理由,其承担次要责任的风险似乎微乎其微。
[1] 卡德雷诉Meta平台公司案,案号:3:23-cv-03417-VC(北加州联邦地区法院,2025年6月25日)
[2] 巴茨诉Anthropic PBC案,案号:3:24-cv-05417-WHA(北加州联邦地区法院,2025年6月23日)
[3]Google LLC诉Oracle Am., Inc.案,593 U.S. 1, 19 (2021)。