2024年9月28日、カリフォルニア州のギャビン・ニューソン知事はAB-2013法案に署名し、同法が成立した。これにより、生成型人工知能(AI)モデルの開発者は、一定の条件下において、2026年1月1日までに当該モデルに関する特定の開示を行うことが義務付けられる。 大まかに言えば、この開示要件は、生成AIシステムに投入されるデータに関する透明性の向上を目的としており、特に一般公開が予定されているAIシステムを開発する事業者に対して適用される。
本記事はFAQ形式で構成されており、AI開発者がAB-2013法に基づきトレーニングデータの文書化義務を負うかどうか、また義務がある場合にその文書化がどのようなものかを理解する助けとなる。
よくある質問
生成AIモデル開発者とは誰ですか?
開発者とは、「一般公衆が利用するための人工知能システムまたはサービスを設計、コーディング、生産、または実質的に変更する個人、パートナーシップ、州または地方自治体機関、または法人」を指す。なお、開発者が上流開発者またはその他の第三者が当初開発したAIシステムまたはサービスを「実質的に変更」した場合にも本法が適用され、対象となる変更には、事前に開発されたモデルまたは第三者のモデルの再トレーニングや微調整が含まれることに留意されたい。
私の技術はそもそも生成AIと見なされるのか?
AB-2013法において、生成AIとは「人工知能の学習データの構造や特性を模倣した、テキスト、画像、動画、音声などの派生的な合成コンテンツを生成できるシステム」を指す。
もし私がその技術を無料で提供しているとしたら?
生成AIモデルに関する補償や商業化への具体的な配慮ではなく、核心的な問題は「その利用条件に補償が含まれるか否かを問わず、カリフォルニア州民が利用できるよう公的に提供されているか」という点である。したがって、生成AI技術が(商業的配慮に関わらず)公的に提供されていない場合、AB-2013の適用対象とはならないと解釈される。
開示はどのような形式で行うべきですか?
開発者が生成AIシステムまたはサービスの訓練に使用したデータに関する文書は、開発者のウェブサイトに掲載されなければならない。
公開するために必要なものは何ですか?
文書化すべき情報の完全なリストは以下に示す通りである。これには、データセットのソースまたは所有者、生成AIシステムの意図された目的への貢献方法、使用されたデータの種類に関する説明、知的財産に関する考慮事項(著作権、商標、特許で保護されたデータの有無、データセットが開発者によって購入またはライセンス供与されたか否かを含む)、およびデータセットに個人情報または集計された消費者情報が含まれるか否かといったプライバシーに関する考慮事項などが含まれるが、これらに限定されない。
私の技術の使用目的に基づく例外はありますか?
はい、開発者は以下のいずれかに該当する場合、文書を公開する必要はありません:(1) システムの唯一の目的がセキュリティと完全性の確保である場合;(2) 唯一の目的が国家空域における航空機の運航である場合;または (3) 国家安全保障、軍事、防衛目的のために開発され、かつ連邦機関のみが利用可能なシステムである場合。
私の技術が利用可能になってからの期間に基づく例外はありますか?
はい、この要件は2022年1月1日以降にリリースされたシステムまたはサービス(それ以前ではない)に適用されます。これには、完全に新しいシステムに加え、新リリースや新バージョンなどの変更も含まれます。
完全開示要件
2026年1月1日までに、かつその後、2022年1月1日以降にリリースされた生成型人工知能システムまたはサービス、もしくはそれらに対する大幅な変更が、カリフォルニア州民による利用のために公開されるたびに(当該利用条件に報酬の有無を問わず)、 当該システムまたはサービスの開発者は、開発者のインターネットウェブサイト上に、生成型人工知能システムまたはサービスの訓練に使用したデータに関する文書を掲載しなければならない。これには、以下を含むがこれらに限定されないすべての事項が含まれる:
生成型人工知能システムまたはサービスの開発に使用されたデータセットの概要(以下に限定されない):
(1) データセットの情報源または所有者。
(2) データセットが人工知能システムまたはサービスの意図された目的をどのように推進するかについての説明。
(3) データセットに含まれるデータポイントの数。これは一般的な範囲で示され、動的データセットについては推定値が用いられる。
(4) データセット内のデータポイントの種類に関する説明。本項の目的上、以下の定義が適用される:
(A) ラベルを含むデータセットに適用される場合、「データポイントの種類」とは、使用されるラベルの種類を意味する。
(B) ラベリングされていないデータセットに適用される場合、「データポイントの種類」とは一般的な特性を指す。
(5) データセットに著作権、商標、または特許で保護されたデータが含まれているか、あるいはデータセット全体が完全にパブリックドメインであるか。
(6) データセットが開発者によって購入されたか、ライセンス供与されたか。
(7) 当該データセットが、第1798.140条(v)項に定義される個人情報を含むかどうか。
(8) 当該データセットが、第1798.140条(b)項に定義される集計消費者情報を含むかどうか。
(9) 開発者によるデータセットのクリーニング、加工、その他の変更の有無、およびそれらの取り組みが人工知能システムまたはサービスに関連して意図された目的。
(10) データセット内のデータが収集された期間。データ収集が継続中の場合はその旨を明記すること。
(11) 人工知能システムまたはサービスの開発中にデータセットが最初に使用された日付。
(12) 生成型人工知能システムまたはサービスが、その開発において合成データ生成を継続的に使用しているかどうか。開発者は、当該システムまたはサービスの意図された目的に関連して、合成データの機能的必要性または望ましい目的に関する説明を含めることができる。