Ik ontwikkel generatieve AI-technologie: geldt de nieuwe transparantieverplichting van Californië ook voor mij?
Op 28 september 2024 heeft de gouverneur van Californië, Gavin Newson, wet AB-2013 ondertekend, die ontwikkelaars van generatieve kunstmatige intelligentie (AI)-modellen onder bepaalde voorwaarden verplicht om vóór 1 januari 2026 specifieke informatie over die modellen openbaar te maken. Op hoog niveau zijn de openbaarmakingsvereisten gericht op meer transparantie over welke gegevens in generatieve AI-systemen worden gebruikt, met name voor ontwikkelaars die AI-systemen maken die naar verwachting algemeen beschikbaar zullen zijn voor het publiek.
Dit artikel is opgezet als een FAQ om AI-ontwikkelaars te helpen begrijpen of zij op grond van AB-2013 verplicht zijn hun trainingsgegevens te documenteren, en zo ja, hoe die documentatie er dan uitziet.
Veelgestelde vragen
Wie is een ontwikkelaar van generatieve AI-modellen?
Een ontwikkelaar is een "persoon, partnerschap, staats- of lokale overheidsinstantie of onderneming die een kunstmatig intelligentiesysteem of -dienst ontwerpt, codeert, produceert of ingrijpend wijzigt voor gebruik door het publiek". Merk op dat de wet van toepassing kan zijn als de ontwikkelaar een AI-systeem of -dienst die oorspronkelijk door een upstream-ontwikkelaar of andere derde partij is ontwikkeld, "ingrijpend wijzigt", en dat onder deze wijziging ook het opnieuw trainen of verfijnen van een eerder ontwikkeld of door een derde partij ontwikkeld model valt.
Wordt mijn technologie überhaupt beschouwd als generatieve AI?
Volgens AB-2013 is generatieve AI een systeem dat "afgeleide synthetische inhoud kan genereren, zoals tekst, afbeeldingen, video en audio, die de structuur en kenmerken van de trainingsgegevens van de kunstmatige intelligentie nabootst".
Wat als ik de technologie gratis aanbied?
In plaats van specifieke overwegingen met betrekking tot compensatie of commercialisering van het generatieve AI-model, is de belangrijkste vraag of het "openbaar beschikbaar wordt gesteld voor Californiërs voor gebruik, ongeacht of de voorwaarden voor dat gebruik compensatie omvatten". Het lijkt er dus op dat als de generatieve AI-technologie niet openbaar beschikbaar wordt gesteld (ongeacht commerciële overwegingen), deze niet onder AB-2013 valt.
In welk formaat moet de openbaarmaking worden gedaan?
Documentatie over de gegevens die de ontwikkelaar gebruikt om het generatieve AI-systeem of de generatieve AI-dienst te trainen, moet op de website van de ontwikkelaar worden geplaatst.
Wat moet er worden gepubliceerd?
De volledige lijst met te documenteren informatie wordt hieronder weergegeven. Deze omvat, zonder beperking, bronnen of eigenaren van datasets, hoe deze het beoogde doel van het generatieve AI-systeem bevorderen, een beschrijving van de soorten gegevens die worden gebruikt, IP-overwegingen (waaronder of er gegevens zijn die worden beschermd door auteursrecht, handelsmerk of octrooi, en of de datasets zijn aangeschaft of in licentie zijn gegeven door de ontwikkelaar) en privacyoverwegingen, zoals of de datasets persoonlijke informatie of geaggregeerde consumenteninformatie bevatten.
Zijn er uitzonderingen op basis van het doel waarvoor mijn technologie wordt gebruikt?
Ja, ontwikkelaars zijn niet verplicht om documentatie te publiceren wanneer (1) het enige doel van het systeem is om de veiligheid en integriteit te waarborgen; (2) het enige doel de exploitatie van vliegtuigen in het nationale luchtruim is; of (3) het systeem is ontwikkeld voor nationale veiligheids-, militaire of defensiedoeleinden en alleen beschikbaar is voor een federale entiteit.
Zijn er uitzonderingen op basis van hoe lang mijn technologie al beschikbaar is?
Ja, de vereiste geldt voor systemen of diensten die op of na 1 januari 2022 (niet eerder) worden uitgebracht; dit omvat naast volledig nieuwe systemen ook wijzigingen zoals nieuwe releases of nieuwe versies.
Volledige openbaarmakingsverplichting
Op of vóór 1 januari 2026, en vóór elke keer daarna dat een generatief kunstmatig intelligentiesysteem of -dienst, of een substantiële wijziging aan een generatief kunstmatig intelligentiesysteem of -dienst, uitgebracht op of na 1 januari 2022, openbaar beschikbaar wordt gesteld aan Californiërs voor gebruik, ongeacht of de voorwaarden voor dat gebruik een vergoeding omvatten, moet de ontwikkelaar van het systeem of de dienst op zijn website documentatie plaatsen over de gegevens die de ontwikkelaar heeft gebruikt om het generatieve kunstmatige-intelligentiesysteem of de generatieve kunstmatige-intelligentieservice te trainen, met inbegrip van, maar niet beperkt tot, al het volgende:
Een beknopte samenvatting van de datasets die zijn gebruikt bij de ontwikkeling van het generatieve kunstmatige-intelligentiesysteem of de generatieve kunstmatige-intelligentieservice, met inbegrip van, maar niet beperkt tot:
(1) De bronnen of eigenaren van de datasets.
(2) Een beschrijving van hoe de datasets het beoogde doel van het kunstmatige-intelligentiesysteem of de kunstmatige-intelligentieservice bevorderen.
(3) Het aantal gegevenspunten in de datasets, dat in algemene bereiken kan liggen, en met geschatte cijfers voor dynamische datasets.
(4) Een beschrijving van de soorten gegevenspunten binnen de datasets. Voor de toepassing van deze paragraaf gelden de volgende definities:
(A) Toegepast op datasets die labels bevatten, betekent "soorten gegevenspunten" de soorten labels die worden gebruikt.
(B) Bij datasets zonder labels verwijst 'soorten gegevenspunten' naar de algemene kenmerken.
(5) Of de datasets gegevens bevatten die beschermd zijn door auteursrecht, handelsmerk of octrooi, of dat de datasets volledig tot het publieke domein behoren.
(6) Of de datasets door de ontwikkelaar zijn aangeschaft of in licentie zijn genomen.
(7) Of de datasets persoonlijke informatie bevatten, zoals gedefinieerd in onderafdeling (v) van sectie 1798.140.
(8) Of de datasets geaggregeerde consumenteninformatie bevatten, zoals gedefinieerd in onderafdeling (b) van artikel 1798.140.
(9) Of er door de ontwikkelaar reiniging, verwerking of andere wijzigingen aan de datasets zijn aangebracht, met inbegrip van het beoogde doel van die inspanningen in verband met het kunstmatige-intelligentiesysteem of de kunstmatige-intelligentieservice.
(10) De periode waarin de gegevens in de datasets zijn verzameld, inclusief een vermelding indien de gegevensverzameling nog gaande is.
(11) De data waarop de datasets voor het eerst werden gebruikt tijdens de ontwikkeling van het kunstmatige-intelligentiesysteem of de kunstmatige-intelligentieservice.
(12) Of het generatieve kunstmatige-intelligentiesysteem of de generatieve kunstmatige-intelligentieservice bij de ontwikkeling ervan gebruikmaakt of voortdurend gebruikmaakt van het genereren van synthetische gegevens. Een ontwikkelaar kan een beschrijving opnemen van de functionele behoefte of het beoogde doel van de synthetische gegevens in relatie tot het beoogde doel van het systeem of de service.