Intelligence artificielle (IA), algorithme, données et RGPD Qu'en est-il des données d'une intelligence artificielle ?
En ce qui concerne les données, il convient tout d'abord de faire la distinction entre les données d'entraînement et les données de résultats. Les données d'entraînement au sens ci-dessus sont les données avec lesquelles l'IA est entraînée. Les données de résultat au sens ci-dessus sont l'IA entièrement entraînée avec sa base de données entraînée. Selon la conception exacte de l'application de l'IA, ces données peuvent être très différentes, voire parfois inexistantes.
Données d'entraînement
Les données d'entraînement sont donc les données avec lesquelles l'IA est "alimentée". Lors de l'évaluation juridique, il y a également des recoupements avec le domaine des "Big Data", qui est un mot à la mode et dont les contours juridiques sont tout aussi imprécis.
Il convient ensuite de distinguer de quel type de données d'entraînement il s'agit :
Données non personnelles
S'il n'y a pas de données à caractère personnel, il convient notamment de vérifier si l'utilisation des données enfreint des obligations de confidentialité contractuelles ou légales, par exemple parce que les données sont soumises à un accord de confidentialité contractuel (NDA) ou parce que les données sont soumises, par exemple, à l'obligation de confidentialité d'un médecin ou d'un autre détenteur de secret professionnel. En outre, il peut être nécessaire d'examiner s'il existe d'autres obligations contractuelles concernant les données, ces obligations pouvant également résulter implicitement d'une obligation contractuelle accessoire, par exemple lorsqu'un prestataire de services reçoit des données d'un client dans le cadre d'un contrat de service. Une infraction à la loi sur la protection des secrets d'affaires (GeschGehG) pour obtention, divulgation ou utilisation non autorisée des données peut également être envisagée. Il faut également tenir compte des dispositions de la directive E-Privacy et du règlement E-Privacy actuellement en cours de normalisation au niveau européen. Selon le droit E-Privacy, la manière dont les données ou les informations ont été obtenues, notamment si elles ont été collectées sans autorisation à partir d'un terminal, est entre autres déterminante.
D'autres conditions cadres juridiques concernant les simples données ont déjà été discutées lors de différentes manifestations de notre forum Droit de la numérisation & Industrie 4.0 et y sont régulièrement abordées en tenant compte des nouvelles lois et décisions.
Données à caractère personnel
S'il existe des données à caractère personnel, le droit de la protection des données, notamment le RGPD, doit être pris en compte. Il faut alors trouver une base juridique pour le traitement des données à des fins de formation à l'IA. Certes, une mise en balance des intérêts peut être envisagée comme base juridique. Toutefois, cela suppose généralement d'examiner le cas individuel de chaque personne concernée. Ainsi, le résultat de la pesée des intérêts peut être différent pour un enfant concerné que pour un adulte. En outre, la mise en balance des intérêts n'entre pas en ligne de compte comme base juridique lorsque des données relatives à la santé ou d'autres catégories particulières de données à caractère personnel sont concernées.
Le consentement est toujours une possibilité sur le plan juridique. Toutefois, sa mise en œuvre pratique pose généralement des problèmes considérables. D'une part, chaque personne concernée doit avoir été suffisamment informée et éclairée sur le traitement des données. Cela pose un problème particulier dans le cas des systèmes d'intelligence artificielle. En outre, le consentement en matière de protection des données est librement révocable à tout moment. Cela pose d'importants problèmes de suivi lorsque les données ont déjà été transmises au système d'IA et qu'il faut déterminer si et dans quelle mesure les données doivent être supprimées parce qu'elles sont concernées par le consentement.
Une autre approche consiste à commencer par abstraire et anonymiser les données à caractère personnel et à n'entraîner l'IA qu'avec ces données. Une variante de cette méthode consiste à traiter dans un premier temps les données à caractère personnel sur la base d'un consentement, mais à partir d'une anonymisation au cours du traitement par l'entraînement de l'IA, car les différentes données d'entraînement ne sont plus "reconnaissables" dans l'IA entraînée.
Cela soulève toutefois la question juridique de savoir si le processus d'anonymisation des données à caractère personnel constitue lui-même un traitement de données nécessitant une base juridique en vertu du RGPD. Cette question peut et doit encore faire l'objet de discussions juridiques approfondies et être jugée par les tribunaux. Selon les positions actuelles du commissaire fédéral à la protection des données et à la liberté de l'information(BfDI) et de l'ancien groupe de travail "Article 29", la réponse à cette question est affirmative. La simple création de données anonymisées à partir de données à caractère personnel constitue donc un traitement de données nécessitant une base juridique. Cela vaut également lorsque le travail se poursuit ensuite exclusivement avec les données anonymisées.
Données de résultats dans l'IA entièrement formée
L'évaluation de la situation juridique concernant les données de résultats, c'est-à-dire les données contenues dans l'IA entièrement formée, doit être examinée très attentivement du point de vue technique. Souvent, on ne parle plus ici que d'algorithme. Or, le terme "IA" recouvre actuellement de nombreuses techniques différentes et son utilisation est très vague.
Dans chaque cas, il convient d'évaluer dans quelle mesure les données d'entraînement sont contenues dans l'IA entraînée. Un spectre complet est envisageable :
A l'extrémité gauche du spectre se trouve une IA des plus simples (qui n'est en fait pas une "véritable IA"). Dans cette IA, les données d'entraînement sont entièrement stockées dans une base de données et l'IA accède à cette base de données lors de ses futures prises de décision.
A l'extrémité droite du spectre se trouve une IA qui a déduit des connaissances à partir de données d'entraînement et pour laquelle seul un résultat abstrait est enregistré (donc un algorithme).
Dans la première situation, c'est-à-dire à l'extrémité gauche du spectre, les données d'entraînement sont entièrement disponibles dans l'IA dont l'entraînement est terminé. Par conséquent, le cadre juridique applicable à l'IA en ce qui concerne les données est le même que celui applicable aux données d'entraînement. Dans la dernière situation mentionnée, c'est-à-dire à l'extrémité droite du spectre, les données d'entraînement ont été rendues anonymes. L'IA n'est donc plus (ou presque plus) soumise au cadre juridique qui s'appliquait aux données d'entraînement. Entre ces deux positions dans le spectre, il existe une situation mixte et il est important d'examiner de plus près quelles données sont encore disponibles et sous quelle forme ; cela peut notamment inclure certaines formes de "machine learning".
Il convient toutefois de souligner qu'il n'existe pas encore de lois spéciales sur cet aspect de l'IA, ni de jurisprudence bien établie. La situation juridique est encore en cours d'évolution, de sorte qu'une évaluation actuelle de la situation juridique est nécessaire en plus de la détermination des conditions réelles concernant l'IA. Ainsi, il est probable que la discussion s'intensifie sur la question de savoir dans quelle mesure la révocation d'un consentement a des répercussions sur l'IA entièrement formée. Ceci surtout lorsqu'il s'agit de données relatives à la santé ou que les sphères intérieures du droit général de la personnalité (notamment la sphère privée et la sphère intime) sont concernées d'une manière ou d'une autre.
Conclusion
Les lois actuelles peuvent être appliquées aux données traitées dans le cadre de l'intelligence artificielle, même si elles ne sont pas spécialement adaptées à cette situation. En ce qui concerne les données d'entraînement, la situation juridique peut encore être relativement bien évaluée à l'aide des lois actuelles. En ce qui concerne les données contenues dans l'IA entièrement entraînée, tout dépend de la manière dont l'IA est conçue sur le plan technique et de la forme sous laquelle les données d'entraînement y sont stockées. La référence générale au fait que l'IA est une boîte noire et que l'on ne sait plus comment l'IA s'est entraînée et quelles sont les données exactes n'est pas pertinente dans la situation juridique actuelle. L'éventail d'évaluations présenté ci-dessus permet toutefois de procéder à des évaluations juridiques même dans une telle situation de boîte noire.
L'évaluation susmentionnée de l'IA et de la protection des données ne représente qu'un aspect de la situation juridique autour de l'IA. Des questions plus larges se posent également dans le droit de la protection des données, par exemple en ce qui concerne la légitimité d'être évalué en tant qu'être humain par une IA (cf. art. 22 RGPD) ou en ce qui concerne la question de savoir comment les informations nécessaires en matière de protection des données peuvent être fournies (cf. art. 13, 14 RGPD), comment traiter les demandes d'information, si la portabilité des données doit être rendue possible et comment procéder à une évaluation d'impact sur la protection des données (AIPD) nécessaire. Dans ce contexte, il faut également tenir compte du fait qu'une IA (ou l'algorithme qui en résulte) dont l'entraînement est terminé peut être considérée comme un secret d'affaires sur lequel l'entreprise ne souhaite pas donner d'informations afin de préserver son avantage concurrentiel et ne veut surtout pas divulguer l'IA (ou l'algorithme). Nous nous ferons un plaisir d'aborder ces questions et d'autres séparément, par exemple dans le cadre de notre forum Droit de la numérisation & Industrie 4.0, qui a lieu régulièrement.