Je développe une technologie d'IA générative : la nouvelle exigence de transparence de la Californie s'applique-t-elle à moi ?
Le 28 septembre 2024, le gouverneur de Californie, Gavin Newson, a promulgué la loi AB-2013, qui oblige les développeurs de modèles d'intelligence artificielle (IA) générative, sous certaines conditions, à divulguer des informations spécifiques concernant ces modèles avant le 1er janvier 2026. De manière générale, les exigences en matière de divulgation visent à accroître la transparence concernant les données utilisées dans les systèmes d'IA générative, en particulier pour les développeurs qui créent des systèmes d'IA destinés à être mis à la disposition du grand public.
Cet article est structuré sous forme de FAQ afin d'aider les développeurs d'IA à comprendre s'ils sont tenus, en vertu de la loi AB-2013, de documenter leurs données d'entraînement et, le cas échéant, à quoi ressemble cette documentation.
FAQ
Qu'est-ce qu'un développeur de modèles d'IA générative ?
Un développeur est une « personne, un partenariat, une agence gouvernementale locale ou nationale, ou une société qui conçoit, code, produit ou modifie de manière substantielle un système ou un service d'intelligence artificielle destiné à être utilisé par le grand public ». Il convient de noter que la loi peut être invoquée si le développeur « modifie de manière substantielle » un système ou un service d'IA initialement développé par un développeur en amont ou un autre tiers, et que les modifications couvertes comprennent le réentraînement ou le réglage fin d'un modèle développé précédemment ou d'un modèle tiers.
Ma technologie peut-elle être considérée comme une IA générative ?
Selon la loi AB-2013, l'IA générative est un système qui « peut générer du contenu synthétique dérivé, tel que du texte, des images, des vidéos et des fichiers audio, qui imite la structure et les caractéristiques des données d'entraînement de l'intelligence artificielle ».
Et si je propose cette technologie gratuitement ?
Plutôt que de se concentrer sur la rémunération ou la commercialisation liées au modèle d'IA générative, la question clé est de savoir s'il est « mis à la disposition du public californien, que les conditions d'utilisation prévoient ou non une rémunération ». Il semble donc que si la technologie d'IA générative n'est pas mise à la disposition du public (indépendamment des considérations commerciales), elle ne sera pas soumise à la loi AB-2013.
Sous quel format la divulgation doit-elle être effectuée ?
La documentation relative aux données utilisées par le développeur pour former le système ou le service d'IA générative doit être publiée sur le site web du développeur.
Quelles sont les informations qui doivent être publiées ?
La liste complète des informations à documenter est fournie ci-dessous ; elle comprend, sans s'y limiter, les sources ou les propriétaires des ensembles de données, la manière dont ils contribuent à l'objectif visé par le système d'IA générative, une description des types de données utilisées, les considérations relatives à la propriété intellectuelle (y compris s'il existe des données protégées par des droits d'auteur, des marques commerciales ou des brevets, et si les ensembles de données ont été achetés ou concédés sous licence par le développeur), et les considérations relatives à la confidentialité, telles que la présence ou non d'informations personnelles ou d'informations agrégées sur les consommateurs dans les ensembles de données.
Y a-t-il des exceptions en fonction de l'utilisation qui est faite de ma technologie ?
Oui, les développeurs ne sont pas tenus de publier la documentation lorsque (1) le seul objectif du système est d'assurer la sécurité et l'intégrité ; (2) le seul objectif est l'exploitation d'aéronefs dans l'espace aérien national ; ou (3) le système est développé à des fins de sécurité nationale, militaires ou de défense et n'est mis à la disposition que d'une entité fédérale.
Y a-t-il des exceptions en fonction de la durée de disponibilité de ma technologie ?
Oui, cette exigence s'applique aux systèmes ou services commercialisés à compter du 1er janvier 2022 (et non avant) ; cela inclut les modifications telles que les nouvelles versions ou les nouvelles éditions, en plus des systèmes entièrement nouveaux.
Obligation de divulgation complète
Au plus tard le 1er janvier 2026, et avant chaque fois par la suite qu'un système ou service d'intelligence artificielle générative, ou une modification substantielle d'un système ou service d'intelligence artificielle générative, lancé le 1er janvier 2022 ou après cette date, est mis à la disposition du public californien pour utilisation, que les conditions d'utilisation prévoient ou non une rémunération, le développeur du système ou du service doit publier sur son site Internet la documentation relative aux données utilisées par le développeur pour former le système ou le service d'intelligence artificielle générative, y compris, mais sans s'y limiter, tous les éléments suivants :
Résumé général des ensembles de données utilisés dans le développement du système ou du service d'intelligence artificielle générative, y compris, mais sans s'y limiter :
(1) Les sources ou les propriétaires des ensembles de données.
(2) Une description de la manière dont les ensembles de données contribuent à la réalisation de l'objectif visé par le système ou le service d'intelligence artificielle.
(3) Le nombre de points de données inclus dans les ensembles de données, qui peuvent être exprimés en fourchettes générales, avec des chiffres estimés pour les ensembles de données dynamiques.
(4) Une description des types de points de données contenus dans les ensembles de données. Aux fins du présent paragraphe, les définitions suivantes s'appliquent :
(A) Dans le cas des ensembles de données comportant des étiquettes, « types de points de données » désigne les types d'étiquettes utilisés.
(B) Dans le cas des ensembles de données sans étiquetage, les « types de points de données » font référence aux caractéristiques générales.
(5) Si les ensembles de données contiennent des données protégées par des droits d'auteur, des marques déposées ou des brevets, ou si les ensembles de données relèvent entièrement du domaine public.
(6) Si les ensembles de données ont été achetés ou concédés sous licence par le développeur.
(7) Si les ensembles de données contiennent des informations personnelles, telles que définies dans la sous-section (v) de la section 1798.140.
(8) Si les ensembles de données comprennent des informations agrégées sur les consommateurs, telles que définies à la sous-section (b) de la section 1798.140.
(9) Si le développeur a procédé à un nettoyage, un traitement ou toute autre modification des ensembles de données, y compris l'objectif visé par ces efforts en relation avec le système ou le service d'intelligence artificielle.
(10) La période pendant laquelle les données des ensembles de données ont été collectées, y compris une mention indiquant si la collecte de données est en cours.
(11) Les dates auxquelles les ensembles de données ont été utilisés pour la première fois lors du développement du système ou du service d'intelligence artificielle.
(12) Si le système ou le service d'intelligence artificielle générative utilise ou continue d'utiliser la génération de données synthétiques dans son développement. Un développeur peut inclure une description du besoin fonctionnel ou de l'objectif souhaité des données synthétiques par rapport à l'objectif visé du système ou du service.