Desarrollo tecnología de IA generativa: ¿me afecta el nuevo requisito de transparencia de California?
El 28 de septiembre de 2024, el gobernador de California, Gavin Newson, promulgó la ley AB-2013, que exige a los desarrolladores de modelos de inteligencia artificial (IA) generativa, en determinadas condiciones, que revelen información específica sobre dichos modelos antes del 1 de enero de 2026. A grandes rasgos, los requisitos de divulgación tienen por objeto aumentar la transparencia sobre los datos que se introducen en los sistemas de IA generativa, especialmente en el caso de los desarrolladores que crean sistemas de IA destinados al público en general.
Este artículo está estructurado como una lista de preguntas frecuentes para ayudar a los desarrolladores de IA a comprender si están obligados por la ley AB-2013 a documentar sus datos de entrenamiento y, en caso afirmativo, cómo debe ser esa documentación.
Preguntas frecuentes
¿Quién es un desarrollador de modelos de IA generativa?
Un desarrollador es «una persona, sociedad, agencia gubernamental estatal o local, o corporación que diseña, codifica, produce o modifica sustancialmente un sistema o servicio de inteligencia artificial para su uso por parte del público». Tenga en cuenta que la ley puede aplicarse si el desarrollador «modifica sustancialmente» un sistema o servicio de IA desarrollado originalmente por un desarrollador anterior u otro tercero, y que la modificación cubierta incluye el reentrenamiento o el ajuste de un modelo desarrollado previamente o de un tercero.
¿Mi tecnología se considera siquiera IA generativa?
Según la ley AB-2013, la IA generativa es un sistema que «puede generar contenido sintético derivado, como texto, imágenes, vídeo y audio, que emula la estructura y las características de los datos de entrenamiento de la inteligencia artificial».
¿Qué pasa si ofrezco la tecnología de forma gratuita?
Más que cualquier consideración específica sobre la compensación o la comercialización relacionada con el modelo de IA generativa, la cuestión clave es si se pone «a disposición pública de los californianos para su uso, independientemente de si las condiciones de dicho uso incluyen una compensación». Por lo tanto, parece que si la tecnología de IA generativa no se pone a disposición del público (independientemente de las consideraciones comerciales), no estará sujeta a la ley AB-2013.
¿En qué formato se debe realizar la divulgación?
La documentación relativa a los datos utilizados por el desarrollador para entrenar el sistema o servicio de IA generativa debe publicarse en el sitio web del desarrollador.
¿Qué se requiere para publicar?
A continuación se proporciona la lista completa de la información que debe documentarse; incluye, sin limitación, las fuentes o los propietarios de los conjuntos de datos, cómo contribuyen al propósito previsto del sistema de IA generativa, una descripción de los tipos de datos utilizados, consideraciones de propiedad intelectual (incluido si hay datos protegidos por derechos de autor, marcas comerciales o patentes, y si los conjuntos de datos fueron comprados o licenciados por el desarrollador) y consideraciones de privacidad, como si los conjuntos de datos incluyen información personal o información agregada de los consumidores.
¿Existen excepciones en función del uso que se le dé a mi tecnología?
Sí, los desarrolladores no están obligados a publicar documentación cuando (1) el único propósito del sistema es garantizar la seguridad y la integridad; (2) el único propósito es la operación de aeronaves en el espacio aéreo nacional; o (3) el sistema se desarrolla con fines de seguridad nacional, militares o de defensa y solo está disponible para una entidad federal.
¿Existen excepciones en función del tiempo que mi tecnología lleva disponible?
Sí, el requisito se aplica a los sistemas o servicios lanzados a partir del 1 de enero de 2022 (no antes); esto incluye modificaciones tales como nuevos lanzamientos o nuevas versiones, además de sistemas completamente nuevos.
Requisito de divulgación completa
El 1 de enero de 2026 o antes, y antes de cada vez posterior en que un sistema o servicio de inteligencia artificial generativa, o una modificación sustancial de un sistema o servicio de inteligencia artificial generativa, lanzado el 1 de enero de 2022 o después, se ponga a disposición del público de California para su uso, independientemente de si los términos de dicho uso incluyen una compensación, el desarrollador del sistema o servicio deberá publicar en su sitio web la documentación relativa a los datos utilizados por el desarrollador para entrenar el sistema o servicio de inteligencia artificial generativa, incluyendo, entre otros, todos los siguientes elementos:
Un resumen de alto nivel de los conjuntos de datos utilizados en el desarrollo del sistema o servicio de inteligencia artificial generativa, incluyendo, entre otros:
(1) Las fuentes o los propietarios de los conjuntos de datos.
(2) Una descripción de cómo los conjuntos de datos contribuyen al propósito previsto del sistema o servicio de inteligencia artificial.
(3) El número de puntos de datos incluidos en los conjuntos de datos, que pueden estar en rangos generales, y con cifras estimadas para conjuntos de datos dinámicos.
(4) Una descripción de los tipos de puntos de datos dentro de los conjuntos de datos. A los efectos de este párrafo, se aplican las siguientes definiciones:
(A) En lo que respecta a los conjuntos de datos que incluyen etiquetas, «tipos de puntos de datos» se refiere a los tipos de etiquetas utilizados.
(B) En lo que respecta a los conjuntos de datos sin etiquetar, «tipos de puntos de datos» se refiere a las características generales.
(5) Si los conjuntos de datos incluyen datos protegidos por derechos de autor, marcas registradas o patentes, o si los conjuntos de datos son totalmente de dominio público.
(6) Si los conjuntos de datos fueron adquiridos o licenciados por el desarrollador.
(7) Si los conjuntos de datos incluyen información personal, tal y como se define en la subdivisión (v) de la Sección 1798.140.
(8) Si los conjuntos de datos incluyen información agregada sobre los consumidores, tal y como se define en la subdivisión (b) de la sección 1798.140.
(9) Si el desarrollador realizó alguna limpieza, procesamiento u otra modificación de los conjuntos de datos, incluyendo el propósito previsto de esas actividades en relación con el sistema o servicio de inteligencia artificial.
(10) El período durante el cual se recopilaron los datos de los conjuntos de datos, incluyendo un aviso si la recopilación de datos está en curso.
(11) Las fechas en las que se utilizaron por primera vez los conjuntos de datos durante el desarrollo del sistema o servicio de inteligencia artificial.
(12) Si el sistema o servicio de inteligencia artificial generativa utiliza o utiliza continuamente la generación de datos sintéticos en su desarrollo. El desarrollador puede incluir una descripción de la necesidad funcional o la finalidad deseada de los datos sintéticos en relación con la finalidad prevista del sistema o servicio.