Intelligence artificielle (IA) et apprentissage automatique (ML) Cadre juridique de l'utilisation des données de formation

Pour l'entraînement d'une intelligence artificielle (IA) ou Artificial Intelligence (AI) et donc pour le Machine Learning (ML) ou l'apprentissage automatique, l'existence de données d'entraînement est fondamentale. Ces données d'entraînement sont également appelées dataset ou corpus - indépendamment de toutes les différences de terminologie dans le détail - et sont souvent soumises à une protection juridique, de sorte que l'entraînement peut entraîner des violations de la loi. Quelles sont les infractions possibles et dans quelle mesure leur utilisation est-elle autorisée ?

Protection des données d'entraînement, du dataset et du corpus

Il n'existe actuellement aucun code spécifique pour les intelligences artificielles. Pour déterminer si l'utilisation de données d'entraînement pour l'entraînement d'une intelligence artificielle dans le cadre de l'apprentissage automatique peut entraîner une violation de la loi, il convient de jeter un coup d'œil à différentes lois et domaines juridiques. Il faut notamment penser à :

  • Les données d'entraînement sont protégées par le droit d'auteur, de sorte que leur utilisation peut enfreindre la loi sur le droit d'auteur (UrhG). Il peut en résulter, outre des demandes de dommages et intérêts, par exemple, des demandes de destruction et même des mesures judiciaires d'urgence d'une partie adverse pour fouiller ses propres locaux sans avoir été préalablement entendu.

  • Les données de formation contiennent des données à caractère personnel, de sorte que leur traitement doit respecter le RGPD et toute autre réglementation relative à la protection des données.

  • Les données d'entraînement sont soumises à un accord de confidentialité contractuel, éventuellement assorti d'une clause pénale, de sorte que l'entraînement ou la diffusion ultérieure de l'IA entraînée peut donner lieu à des demandes de dommages et intérêts et, le cas échéant, à des pénalités contractuelles, voire à leur déchéance.

Données d'entraînement et droit d'auteur

Protection du droit d'auteur

Le droit d'auteur peut être concerné sous différents aspects. Cela dépend de la nature des données d'entraînement. Selon que les données de formation sont des textes, des images, de la musique, des vidéos, des logiciels, des bases de données ou l'un des différents autres droits de propriété intellectuelle, différentes sections de la loi sur le droit d'auteur (UrhG) doivent être respectées.

Par exemple, la collecte de données via un screen-scraping, un web-scraping ou via des web-crawlers peut notamment porter atteinte aux droits de tiers en tant que producteurs de bases de données. Voir à ce sujet notre article séparé sur la licéité du screen-scraping / web-scraping et des web-crawlers.

Si, par exemple, des textes de sites web de tiers doivent être utilisés pour l'entraînement de la propre IA, il peut y avoir violation du droit d'auteur des auteurs respectifs des textes ainsi que du droit de base de données de l'exploitant du site web, qui peut avoir été créé en raison de ses investissements dans la sélection et la composition structurée des différents contenus. En revanche, si des images doivent être utilisées pour l'apprentissage automatique, les droits d'auteur (ou les droits voisins) du photographe concerné peuvent être pris en compte, celui-ci n'ayant généralement pas accordé de licence générale (ou de droit d'utilisation général) pour l'utilisation des images à des fins d'apprentissage automatique.

Exceptions à la protection par le droit d'auteur

Toutefois, la loi sur le droit d'auteur prévoit également des limites. Ainsi, bien que les contenus de tiers soient protégés par le droit d'auteur, ils peuvent être utilisés à des fins personnelles sans l'autorisation du titulaire des droits. De telles restrictions au droit d'auteur existent dans différents domaines spécifiques.

En ce qui concerne une base de données de tiers, les contenus non essentiels ne peuvent par exemple pas être exploités de manière systématique et répétée (voir les détails à ce sujet dans notre article sur l'admissibilité du screen-scraping / web-scraping et des web-crawlers).

Ce n'est qu'en mars qu'une nouvelle armoire de droit d'auteur a été introduite pour le "Text and Data Mining" (TDM). La réglementation en question se trouve dans l'article 60d UrhG. Selon cette disposition, il est expressément autorisé d'évaluer de manière automatisée un grand nombre d'œuvres en tant que matériel d'origine, et ce également de manière systématique et dans le but explicite d'en créer un corpus (c'est-à-dire un ensemble de données). Toutefois, cette réglementation ne s'applique expressément qu'au domaine purement scientifique. L'utilité pratique de la norme est donc très limitée. Dans l'article 60c UrhG, on trouve une réglementation également pertinente, mais également pour le domaine scientifique.

Les dispositions des articles 60c et 60d UrhG laissent toutefois entendre que l'exploration de texte et de données et la constitution d'un corpus à des fins commerciales sont discutables et doivent être strictement encadrées par d'autres limites pour être autorisées.

Actuellement, on espère qu'une réforme majeure du droit d'auteur permettra d'aller plus loin et d'accorder des autorisations forfaitaires pour le domaine commercial également.

Indépendamment de l'invocation de dispositions légales limitant l'utilisation de données d'entraînement, il est également possible de veiller à n'utiliser que des contenus de tiers qui autorisent contractuellement une utilisation pour l'apprentissage automatique. Il est par exemple envisageable d'examiner de plus près les contenus qui sont sous une licence de la famille des licences "Creative Commons".

Données de formation et protection des données

Si les données de formation contiennent des données à caractère personnel, la législation sur la protection des données (généralement sous la forme du RGPD) doit être respectée. L'utilisation des données d'entraînement ne peut alors se faire qu'en présence d'une base juridique. La solution consistant à procéder d'abord à une anonymisation est certes envisageable. Toutefois, le processus de création de données anonymisées à partir de données à caractère personnel peut déjà nécessiter une base juridique conformément au RGPD. En outre, les données anonymisées ne sont souvent plus des données d'entraînement valables, car la référence à la personne ou du moins la mise en relation de certaines données partielles entre elles est nécessaire pour l'apprentissage automatique.

Sur le thème de l'intelligence artificielle et du respect du droit de la protection des données, voir notre article détaillé ici.

Données d'entraînement et accord de confidentialité

Indépendamment des dispositions légales, l'utilisation de données à des fins d'entraînement d'une IA peut être interdite en vertu de dispositions contractuelles.

Si, par exemple, une entreprise de sous-traitance constate qu'elle dispose d'un trésor de données intéressant et souhaite s'en servir pour entraîner une IA, il peut être nécessaire de respecter des accords de confidentialité ou des NDA avec les fournisseurs ou autres partenaires. Outre l'interdiction d'utiliser les données à des fins personnelles et l'interdiction de les transmettre, ces accords de confidentialité ou NDA peuvent prévoir des sanctions contractuelles importantes. Un accord de confidentialité ou un NDA peut donc déjà être enfreint par un apprentissage automatique et notamment lors de la transmission d'une IA entièrement entraînée à des tiers. Il convient de noter qu'un "calcul rétroactif" sur les données de départ (ou des parties de celles-ci) de l'IA entièrement entraînée est tout à fait envisageable. Les détails dépendent toutefois fortement de l'IA concernée. L'approche globale selon laquelle seule une IA entièrement entraînée est transmise et que les données de base ne sont donc pas divulguées à des tiers n'est donc pas toujours fiable.

Conclusion

De très nombreuses données de départ intéressantes, qui doivent être utilisées pour l'entraînement d'une intelligence artificielle dans le cadre de l'apprentissage automatique, sont soumises à un cadre juridique. Le simple entraînement ou la transmission d'une intelligence artificielle entièrement entraînée peut donc donner lieu à des violations de la loi qui peuvent entraîner, outre des demandes d'injonction, des demandes de dommages et intérêts et même des procédures judiciaires d'urgence sans audition propre pour la saisie de documents avec l'intervention d'huissiers de justice.

Toutefois, si certaines conditions cadres juridiques sont respectées, l'apprentissage automatique est autorisé sans risques juridiques.

Version : 2. févr. 2021