Eu desenvolvo tecnologia de IA generativa: a nova exigência de transparência da Califórnia se aplica a mim?
Em 28 de setembro de 2024, o governador da Califórnia, Gavin Newson, sancionou a lei AB-2013, exigindo que os desenvolvedores de modelos de inteligência artificial (IA) generativa, sob certas condições, façam divulgações específicas sobre esses modelos até 1º de janeiro de 2026. Em um nível geral, os requisitos de divulgação visam maior transparência sobre quais dados são inseridos nos sistemas de IA generativa, especialmente para desenvolvedores que criam sistemas de IA que devem ser disponibilizados ao público em geral.
Este artigo está estruturado como uma FAQ para ajudar os desenvolvedores de IA a entender se eles são obrigados pela AB-2013 a documentar os seus dados de treino e, em caso afirmativo, como deve ser essa documentação.
Perguntas frequentes
Quem é um desenvolvedor de modelos de IA generativa?
Um desenvolvedor é uma “pessoa, parceria, agência governamental estadual ou local, ou corporação que projeta, codifica, produz ou modifica substancialmente um sistema ou serviço de inteligência artificial para uso pelo público”. Observe que a lei pode ser acionada se o desenvolvedor “modificar substancialmente” um sistema ou serviço de IA originalmente desenvolvido por um desenvolvedor upstream ou outro terceiro, e a modificação abrangida inclui o retreinamento ou o ajuste fino de um modelo desenvolvido anteriormente ou de terceiros.
A minha tecnologia é considerada IA generativa?
De acordo com a AB-2013, a IA generativa é um sistema que “pode gerar conteúdo sintético derivado, como texto, imagens, vídeo e áudio, que emula a estrutura e as características dos dados de treino da inteligência artificial”.
E se eu estiver a oferecer a tecnologia gratuitamente?
Em vez de qualquer consideração específica sobre compensação ou comercialização relacionada ao modelo de IA generativa, a questão principal é se ele é «disponibilizado publicamente para uso pelos californianos, independentemente de os termos desse uso incluírem compensação». Assim, parece que, se a tecnologia de IA generativa não for disponibilizada publicamente (independentemente de considerações comerciais), ela não estará sujeita à AB-2013.
Em que formato a divulgação deve ser feita?
A documentação relativa aos dados utilizados pelo programador para treinar o sistema ou serviço de IA generativa deve ser publicada no site do programador.
O que é necessário publicar?
A lista completa das informações a serem documentadas é fornecida abaixo; ela inclui, sem limitação, fontes ou proprietários de conjuntos de dados, como eles promovem o objetivo pretendido do sistema de IA generativa, uma descrição dos tipos de dados utilizados, considerações de propriedade intelectual (incluindo se há dados protegidos por direitos autorais, marca registrada ou patente, e se os conjuntos de dados foram adquiridos ou licenciados pelo desenvolvedor) e considerações de privacidade, como se os conjuntos de dados incluem informações pessoais ou informações agregadas do consumidor.
Existem exceções com base na finalidade da minha tecnologia?
Sim, os desenvolvedores não são obrigados a publicar documentação quando (1) o único objetivo do sistema é garantir a segurança e a integridade; (2) o único objetivo é a operação de aeronaves no espaço aéreo nacional; ou (3) o sistema é desenvolvido para fins de segurança nacional, militares ou de defesa e é disponibilizado apenas para uma entidade federal.
Existem exceções com base no tempo de disponibilidade da minha tecnologia?
Sim, o requisito aplica-se a sistemas ou serviços lançados a partir de 1 de janeiro de 2022 (não antes); isso inclui modificações, como novos lançamentos ou novas versões, além de sistemas completamente novos.
Requisito de divulgação completa
Até 1 de janeiro de 2026, e antes de cada vez que, posteriormente, um sistema ou serviço de inteligência artificial generativa, ou uma modificação substancial a um sistema ou serviço de inteligência artificial generativa, lançado em ou após 1 de janeiro de 2022, for disponibilizado publicamente aos californianos para uso, independentemente de os termos desse uso incluírem compensação, o desenvolvedor do sistema ou serviço deverá publicar no seu site na Internet a documentação relativa aos dados utilizados pelo desenvolvedor para treinar o sistema ou serviço de inteligência artificial generativa, incluindo, mas não se limitando a, todos os seguintes itens:
Um resumo de alto nível dos conjuntos de dados utilizados no desenvolvimento do sistema ou serviço de inteligência artificial generativa, incluindo, mas não se limitando a:
(1) As fontes ou proprietários dos conjuntos de dados.
(2) Uma descrição de como os conjuntos de dados promovem o objetivo pretendido do sistema ou serviço de inteligência artificial.
(3) O número de pontos de dados incluídos nos conjuntos de dados, que podem estar em intervalos gerais, e com valores estimados para conjuntos de dados dinâmicos.
(4) Uma descrição dos tipos de pontos de dados dentro dos conjuntos de dados. Para efeitos deste parágrafo, aplicam-se as seguintes definições:
(A) Quando aplicado a conjuntos de dados que incluem rótulos, «tipos de pontos de dados» significa os tipos de rótulos utilizados.
(B) Quando aplicado a conjuntos de dados sem rotulagem, «tipos de pontos de dados» refere-se às características gerais.
(5) Se os conjuntos de dados incluem quaisquer dados protegidos por direitos de autor, marca registada ou patente, ou se os conjuntos de dados são inteiramente de domínio público.
(6) Se os conjuntos de dados foram adquiridos ou licenciados pelo desenvolvedor.
(7) Se os conjuntos de dados incluem informações pessoais, conforme definido na subdivisão (v) da Secção 1798.140.
(8) Se os conjuntos de dados incluem informações agregadas sobre os consumidores, conforme definido na subdivisão (b) da Secção 1798.140.
(9) Se houve alguma limpeza, processamento ou outra modificação nos conjuntos de dados pelo desenvolvedor, incluindo a finalidade pretendida desses esforços em relação ao sistema ou serviço de inteligência artificial.
(10) O período durante o qual os dados nos conjuntos de dados foram recolhidos, incluindo um aviso se a recolha de dados estiver em curso.
(11) As datas em que os conjuntos de dados foram utilizados pela primeira vez durante o desenvolvimento do sistema ou serviço de inteligência artificial.
(12) Se o sistema ou serviço de inteligência artificial generativa utiliza ou utiliza continuamente a geração de dados sintéticos no seu desenvolvimento. Um desenvolvedor pode incluir uma descrição da necessidade funcional ou finalidade desejada dos dados sintéticos em relação à finalidade pretendida do sistema ou serviço.