2024년 9월 28일, 캘리포니아 주지사 개빈 뉴슨은 생성형 인공지능(AI) 모델 개발자들에게 특정 조건 하에 2026년 1월 1일까지 해당 모델에 관한 구체적인 공개를 의무화하는 AB-2013 법안을 서명하여 법으로 제정했습니다. 기본적으로 이 공개 요건은 생성형 AI 시스템에 어떤 데이터가 투입되는지에 대한 투명성 제고를 목표로 하며, 특히 일반 대중에게 공개될 것으로 예상되는 AI 시스템을 개발하는 업체를 대상으로 합니다.
본 문서는 AI 개발자들이 AB-2013에 따라 훈련 데이터를 문서화할 의무가 있는지, 그리고 의무가 있다면 그 문서화가 어떤 형태여야 하는지 이해하는 데 도움을 주기 위해 FAQ 형식으로 구성되었습니다.
자주 묻는 질문
생성형 AI 모델 개발자는 누구인가?
개발자란 "일반 대중이 사용하기 위한 인공지능 시스템 또는 서비스를 설계, 코딩, 생산하거나 실질적으로 수정하는 개인, 파트너십, 주 또는 지방 정부 기관, 또는 법인"을 의미합니다. 상류 개발자나 기타 제3자가 원래 개발한 인공지능 시스템 또는 서비스를 개발자가 "실질적으로 수정"하는 경우에도 해당 법률이 적용될 수 있으며, 적용 대상 수정에는 기존에 개발된 모델이나 제3자 모델의 재훈련 또는 미세 조정도 포함됩니다.
제 기술이 생성형 AI로 간주되나요?
AB-2013에 따르면, 생성형 인공지능은 "인공지능의 훈련 데이터 구조와 특성을 모방한 텍스트, 이미지, 영상, 음성 등의 파생 합성 콘텐츠를 생성할 수 있는 시스템"이다.
만약 제가 기술을 무료로 제공한다면 어떻게 될까요?
생성형 AI 모델과 관련된 보상이나 상업화에 대한 구체적인 고려사항보다는, 핵심 질문은 해당 모델이 "캘리포니아 주민들이 사용할 수 있도록 공개적으로 제공되는지 여부"이며, "사용 조건에 보상이 포함되는지 여부와 무관하다"는 점이다. 따라서 생성형 AI 기술이 공개적으로 제공되지 않는다면(상업적 고려사항과 무관하게), AB-2013의 적용 대상이 되지 않을 것으로 보인다.
공개는 어떤 형식으로 이루어져야 합니까?
개발자가 생성형 AI 시스템 또는 서비스를 훈련하는 데 사용한 데이터에 관한 문서는 개발자의 웹사이트에 게시되어야 합니다.
출판하기 위해 필요한 것은 무엇인가?
문서화해야 할 정보의 전체 목록은 아래와 같습니다. 여기에는 데이터 세트의 출처 또는 소유자, 생성형 AI 시스템의 의도된 목적을 어떻게 지원하는지, 사용된 데이터 유형에 대한 설명, 지적 재산권 관련 사항(저작권, 상표권 또는 특허권으로 보호되는 데이터가 있는지 여부, 개발자가 데이터 세트를 구매했는지 또는 라이선스를 취득했는지 여부 포함), 그리고 데이터 세트에 개인정보 또는 집계된 소비자 정보가 포함되어 있는지 여부와 같은 개인정보 보호 관련 사항 등이 포함되나 이에 국한되지 않습니다.
내 기술의 사용 목적에 따라 예외가 있나요?
예, 개발자는 다음의 경우 문서화를 게시할 의무가 없습니다: (1) 시스템의 유일한 목적이 보안 및 무결성 확보인 경우; (2) 유일한 목적이 국가 공역 내 항공기 운용인 경우; 또는 (3) 국가 안보, 군사 또는 방위 목적으로 개발되어 연방 기관에만 제공되는 시스템인 경우.
내 기술이 출시된 기간에 따라 예외가 있나요?
예, 해당 요건은 2022년 1월 1일 이후(그 이전이 아닌)에 출시된 시스템 또는 서비스에 적용됩니다. 여기에는 완전히 새로운 시스템뿐만 아니라 새 릴리스나 새 버전과 같은 수정 사항도 포함됩니다.
완전 공개 의무
2026년 1월 1일 또는 그 이전에, 그리고 2022년 1월 1일 이후에 출시된 생성형 인공지능 시스템 또는 서비스, 혹은 생성형 인공지능 시스템 또는 서비스에 대한 중대한 수정 사항이 캘리포니아 주민에게 공개적으로 사용 가능하게 제공될 때마다(해당 사용 조건에 보상 여부가 포함되는지 여부와 무관하게), 해당 시스템 또는 서비스의 개발자는 개발자의 인터넷 웹사이트에 생성형 인공지능 시스템 또는 서비스 훈련에 사용된 데이터에 관한 문서를 게시해야 하며, 이는 다음을 포함하되 이에 국한되지 않는다:
생성형 인공지능 시스템 또는 서비스 개발에 사용된 데이터 세트에 대한 고수준 요약으로, 다음을 포함하되 이에 국한되지 않습니다:
(1) 데이터 세트의 출처 또는 소유자.
(2) 데이터 세트가 인공지능 시스템 또는 서비스의 의도된 목적을 어떻게 달성하는지에 대한 설명.
(3) 데이터 세트에 포함된 데이터 포인트의 수. 이는 일반적으로 범위로 표시되며, 동적 데이터 세트의 경우 추정 수치를 포함합니다.
(4) 데이터 세트 내 데이터 포인트 유형에 대한 설명. 본 항의 목적상 다음 정의가 적용됩니다:
(A) 레이블이 포함된 데이터셋에 적용될 때, "데이터 포인트의 유형"이란 사용된 레이블의 유형을 의미한다.
(B) 라벨링이 없는 데이터셋에 적용될 때, "데이터 포인트의 유형"은 일반적인 특성을 의미합니다.
(5) 데이터 세트에 저작권, 상표권 또는 특허권으로 보호되는 데이터가 포함되어 있는지, 또는 데이터 세트가 완전히 공개 영역에 속하는지 여부.
(6) 데이터 세트가 개발자에 의해 구매되었는지 또는 라이선스가 부여되었는지 여부.
(7) 데이터 세트가 제1798.140조 (v)호에 정의된 개인정보를 포함하는지 여부.
(8) 데이터 세트가 제1798.140조 (b)호에 정의된 집계 소비자 정보를 포함하는지 여부.
(9) 개발자가 데이터셋에 대해 수행한 정제, 가공 또는 기타 수정 여부 및 해당 작업이 인공지능 시스템 또는 서비스와 관련하여 의도한 목적.
(10) 데이터 세트의 데이터가 수집된 기간(데이터 수집이 진행 중인 경우 해당 사실을 포함).
(11) 인공지능 시스템 또는 서비스 개발 과정에서 데이터셋이 최초로 사용된 날짜.
(12) 생성형 인공지능 시스템 또는 서비스가 개발 과정에서 합성 데이터 생성을 사용하거나 지속적으로 사용하는지 여부. 개발자는 시스템 또는 서비스의 의도된 목적과 관련하여 합성 데이터의 기능적 필요성 또는 원하는 목적에 대한 설명을 포함할 수 있다.