2024年9月28日,加利福尼亚州州长加文·纽森签署AB-2013法案使其生效,要求生成式人工智能(AI)模型开发者在特定条件下,须于2026年1月1日前就该类模型作出具体披露。 从宏观层面看,这些披露要求旨在提高生成式AI系统数据来源的透明度,尤其针对开发面向公众普及的人工智能系统的开发者。
本文以常见问题解答的形式,帮助人工智能开发者理解他们是否受AB-2013法案约束而必须记录其训练数据,以及若需记录,该记录应包含哪些内容。
常见问题解答
什么是生成式人工智能模型开发者?
开发者是指"为公众成员设计、编码、生产或实质性修改人工智能系统或服务的个人、合伙企业、州或地方政府机构或公司"。需注意的是,若开发者对上游开发者或其他第三方最初开发的人工智能系统或服务进行"实质性修改",该法律即可能适用,且涵盖的修改包括对先前开发或第三方模型的重新训练或微调。
我的技术算生成式人工智能吗?
根据AB-2013法案,生成式人工智能是指"能够生成衍生合成内容(如文本、图像、视频和音频)的系统,该内容模仿了人工智能训练数据的结构和特征"。
如果我免费提供这项技术呢?
与生成式人工智能模型相关的补偿或商业化考量并非关键所在,核心问题在于该技术是否"向加州居民公开提供使用,无论使用条款是否包含补偿条款"。因此,若生成式人工智能技术未向公众开放(无论是否涉及商业考量),则不受AB-2013法案约束。
披露应以何种格式进行?
开发者必须在其网站上公布用于训练生成式人工智能系统或服务的数据相关文件。
需要发布什么内容?
需记录的信息完整清单如下,包括但不限于:数据集来源或所有者、数据集如何促进生成式人工智能系统的预期目标、所用数据类型的描述、知识产权考量(包括是否存在受版权、商标或专利保护的数据,以及数据集是由开发者购买还是获得许可使用),以及隐私考量(例如数据集是否包含个人信息或汇总消费者信息)。
是否存在基于技术用途的例外情况?
是的,开发人员无需公开文档,若满足以下任一条件:(1) 该系统唯一目的是确保安全与完整性;(2) 该系统唯一目的是在国家空域内操作航空器;或 (3) 该系统系为国家安全、军事或国防目的开发,且仅向联邦实体提供。
是否存在基于我的技术问世时间长短的例外情况?
是的,该要求适用于2022年1月1日(含)之后发布的系统或服务(不包括之前发布的);这包括除全新系统之外的修改,例如新版本或新发布。
全面披露要求
在2026年1月1日或之前,以及此后每次向加州居民公开提供2022年1月1日或之后发布的生成式人工智能系统或服务(或对其进行重大修改)供其使用时——无论该使用条款是否包含补偿条款—— 该系统或服务开发者须在其互联网网站上公布用于训练生成式人工智能系统或服务的数据文档,包括但不限于以下全部内容:
生成式人工智能系统或服务开发过程中所用数据集的高级概述,包括但不限于:
(1) 数据集的来源或所有者。
(2) 说明数据集如何促进人工智能系统或服务预期目标的实现。
(3) 数据集中包含的数据点数量,通常以一般范围表示,动态数据集则提供估计值。
(4) 对数据集内数据点类型的描述。就本段而言,适用以下定义:
(A) 对于包含标签的数据集,“数据点的类型”指所使用的标签类型。
(B) 对于未标注的数据集,“数据点类型”指其基本特征。
(5) 数据集是否包含受版权、商标或专利保护的数据,或数据集是否完全属于公共领域。
(6) 数据集是由开发者购买还是获得许可。
(7) 数据集是否包含《加州民法典》第1798.140条第(v)款所定义的个人信息。
(8) 数据集是否包含第1798.140条(b)款所定义的汇总消费者信息。
(9) 开发者是否对数据集进行了任何清理、处理或其他修改,包括这些工作与人工智能系统或服务相关的预期目的。
(10) 数据集所含数据的收集时间段,若数据收集仍在进行中,则需注明。
(11) 在人工智能系统或服务的开发过程中首次使用数据集的日期。
(12) 生成式人工智能系统或服务在其开发过程中是否使用或持续使用合成数据生成技术。开发者可说明合成数据的功能需求或预期用途,并阐明其与系统或服务预期目的之间的关联。