Source: OJ L, 2024/1689, 12.7.2024

Article 10 Données et gouvernance des données

1. Les systèmes d’IA à haut risque faisant appel à des techniques qui impliquent l’entraînement de modèles d’IA au moyen de données sont développés sur la base de jeux de données d’entraînement, de validation et de test qui satisfont aux critères de qualité visés aux paragraphes 2 à 5 chaque fois que ces jeux de données sont utilisés.
1. Les jeux de données d’entraînement, de validation et de test sont soumis à des pratiques en matière de gouvernance et de gestion des données appropriées à la destination du systèmes d’IA à haut risque. Ces pratiques concernent en particulier:
  1. les choix de conception pertinents;
  2. les processus de collecte de données et l’origine des données, ainsi que, dans le cas des données à caractère personnel, la finalité initiale de la collecte de données;
  3. les opérations de traitement pertinentes pour la préparation des données, telles que l’annotation, l’étiquetage, le nettoyage, la mise à jour, l’enrichissement et l’agrégation;
  4. la formulation d’hypothèses, notamment en ce qui concerne les informations que les données sont censées mesurer et représenter;
  5. une évaluation de la disponibilité, de la quantité et de l’adéquation des jeux de données nécessaires;
  6. un examen permettant de repérer d’éventuels biais qui sont susceptibles de porter atteinte à la santé et à la sécurité des personnes, d’avoir une incidence négative sur les droits fondamentaux ou de se traduire par une discrimination interdite par le droit de l’Union, en particulier lorsque les données de sortie influencent les entrées pour les opérations futures;
  7. les mesures appropriées visant à détecter, prévenir et atténuer les éventuels biais repérés conformément au point f);
  8. la détection de lacunes ou déficiences pertinentes dans les données qui empêchent l’application du présent règlement, et la manière dont ces lacunes ou déficiences peuvent être comblées.
1. Les jeux de données d’entraînement, de validation et de test sont pertinents, suffisamment représentatifs et, dans toute la mesure possible, exempts d’erreurs et complets au regard de la destination. Ils possèdent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou groupes de personnes à l’égard desquels le système d’IA à haut risque est destiné à être utilisé. Ces caractéristiques des jeux de données peuvent être remplies au niveau des jeux de données pris individuellement ou d’une combinaison de ceux-ci.
1. Les jeux de données tiennent compte, dans la mesure requise par la destination, des caractéristiques ou éléments propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d’IA à haut risque est destiné à être utilisé.
1. Dans la mesure où cela est strictement nécessaire aux fins de la détection et de la correction des biais en ce qui concerne les systèmes d’IA à haut risque, conformément au paragraphe 2, points f) et g), du présent article, les fournisseurs de ces systèmes peuvent exceptionnellement traiter des catégories particulières de données à caractère personnel, sous réserve de garanties appropriées pour les droits et libertés fondamentaux des personnes physiques. Outre les dispositions des règlements (UE) 2016/679 et (UE) 2018/1725 et de la directive (UE) 2016/680, toutes les conditions suivantes doivent être réunies pour que ce traitement puisse avoir lieu:
  1. la détection et la correction des biais ne peuvent être satisfaites de manière efficace en traitant d’autres données, y compris des données synthétiques ou anonymisées;
  2. les catégories particulières de données à caractère personnel sont soumises à des limitations techniques relatives à la réutilisation des données à caractère personnel, ainsi qu’aux mesures les plus avancées en matière de sécurité et de protection de la vie privée, y compris la pseudonymisation;
  3. les catégories particulières de données à caractère personnel font l’objet de mesures visant à garantir que les données à caractère personnel traitées sont sécurisées, protégées et soumises à des garanties appropriées, y compris des contrôles stricts et une documentation de l’accès, afin d’éviter toute mauvaise utilisation et de veiller à ce que seules les personnes autorisées ayant des obligations de confidentialité appropriées aient accès à ces données à caractère personnel;
  4. les catégories particulières de données à caractère personnel ne doivent pas être transmises, transférées ou consultées d’une autre manière par d’autres parties;
  5. les catégories particulières de données à caractère personnel sont supprimées une fois que le biais a été corrigé ou que la période de conservation des données à caractère personnel a expiré, selon celle de ces deux échéances qui arrive en premier;
  6. les registres des activités de traitement visés dans les règlements (UE) 2016/679 et (UE) 2018/1725 et dans la directive (UE) 2016/680 comprennent les raisons pour lesquelles le traitement des catégories particulières de données à caractère personnel était strictement nécessaire pour détecter et corriger les biais, ainsi que la raison pour laquelle cet objectif n’a pas pu être atteint par le traitement d’autres données.
1. En ce qui concerne le développement de systèmes d’IA à haut risque qui ne font pas appel à des techniques qui impliquent l’entraînement de modèles d’IA, les paragraphes 2 à 5 s’appliquent uniquement aux jeux de données de test.

Relevant recitals

Considérant 66 Coverage of mandatory requirements

Des exigences devraient s’appliquer aux systèmes d’IA à haut risque en ce qui concerne la gestion des risques, la qualité et la pertinence des jeux de données utilisés, la documentation technique et la tenue de registres, la transparence et la fourniture d’informations aux déployeurs, le contrôle humain, ainsi que la robustesse, l’exactitude et la sécurité. Ces exigences sont nécessaires pour atténuer efficacement les risques pour la santé, la sécurité et les droits fondamentaux. Aucune autre mesure moins contraignante pour le commerce n’étant raisonnablement disponible, ces exigences ne constituent pas des restrictions injustifiées aux échanges.

Considérant 67 Data governance and management

Les données de haute qualité et l’accès à ces données jouent un rôle essentiel pour ce qui est de fournir une structure et d’assurer le bon fonctionnement de nombreux systèmes d’IA, en particulier lorsque des techniques axées sur l’entraînement de modèles sont utilisées, afin de garantir que le système d’IA à haut risque fonctionne comme prévu et en toute sécurité et qu’il ne devient pas une source de discrimination interdite par le droit de l’Union. Les jeux de données d’entraînement, de validation et de test de haute qualité nécessitent la mise en œuvre de pratiques de gouvernance et de gestion des données appropriées. Les jeux de données d’entraînement, de validation et de test, y compris les étiquettes, devraient être pertinents, suffisamment représentatifs et, dans toute la mesure du possible, exempts d’erreurs et complets au regard de la destination du système. Afin de faciliter le respect du droit de l’Union sur la protection des données, tel que le règlement (UE) 2016/679, les pratiques en matière de gouvernance et de gestion des données devraient inclure, dans le cas des données à caractère personnel, la transparence quant à la finalité initiale de la collecte des données. Les jeux de données devraient également posséder les propriétés statistiques voulues, y compris en ce qui concerne les personnes ou groupes de personnes pour lesquels le système d’IA à haut risque est destiné à être utilisé, en accordant une attention particulière à l’atténuation des éventuels biais dans les jeux de données qui sont susceptibles de porter atteinte à la santé et à la sécurité des personnes, d’avoir une incidence négative sur les droits fondamentaux ou de se traduire par une discrimination interdite par le droit de l’Union, en particulier lorsque les données de sortie influencent les entrées pour les opérations futures («boucles de rétroaction»). Des biais peuvent, par exemple, être inhérents à des jeux de données sous-jacents, en particulier lorsque des données historiques sont utilisées, ou générés lorsque les systèmes sont mis en œuvre dans des conditions réelles. Les résultats produits par les systèmes d’IA pourraient être influencés par ces biais inhérents, qui ont tendance à se renforcer progressivement et ainsi à perpétuer et à amplifier les discriminations existantes, en particulier pour les personnes appartenant à certains groupes vulnérables, y compris les groupes ethniques ou raciaux. L’exigence selon laquelle les jeux de données doivent être dans toute la mesure du possible complets et exempts d’erreurs ne devrait pas avoir d’effet sur l’utilisation de techniques respectueuses de la vie privée dans le contexte du développement et de la mise à l’essai des systèmes d’IA. En particulier, les jeux de données devraient prendre en considération, dans la mesure requise au regard de leur destination, les propriétés, les caractéristiques ou les éléments qui sont propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d’IA est destiné à être utilisé. Les exigences relatives à la gouvernance des données peuvent être respectées en faisant appel à des tiers qui proposent des services de conformité certifiés, y compris la vérification de la gouvernance des données, l’intégrité des jeux de données et les pratiques d’entraînement, de validation et de mise à l’essai des données, dans la mesure où le respect des exigences du présent règlement en matière de données est garanti.

Considérant 68 European common data spaces

Pour le développement et l’évaluation de systèmes d’IA à haut risque, certains acteurs, tels que les fournisseurs, les organismes notifiés et d’autres entités concernées, telles que les pôles européens d’innovation numérique, les installations d’expérimentation et d’essai et les centres de recherche, devraient être en mesure d’avoir accès à des jeux de données de haute qualité dans leurs domaines d’activité liés au présent règlement et d’utiliser de tels jeux de données. Les espaces européens communs des données créés par la Commission et la facilitation du partage de données d’intérêt public entre les entreprises et avec le gouvernement seront essentiels pour fournir un accès fiable, responsable et non discriminatoire à des données de haute qualité pour l’entraînement, la validation et la mise à l’essai des systèmes d’IA. Par exemple, dans le domaine de la santé, l’espace européen des données de santé facilitera l’accès non discriminatoire aux données de santé et l’entraînement d’algorithmes d’IA à l’aide de ces jeux de données, d’une manière respectueuse de la vie privée, sûre, rapide, transparente et digne de confiance, et avec une gouvernance institutionnelle appropriée. Les autorités compétentes concernées, y compris les autorités sectorielles, qui fournissent ou facilitent l’accès aux données peuvent aussi faciliter la fourniture de données de haute qualité pour l’entraînement, la validation et la mise à l’essai des systèmes d’IA.

Considérant 69 Data minimisation and data protection by design and by default

Le droit au respect de la vie privée et à la protection des données à caractère personnel doit être garanti tout au long du cycle de vie du système d’IA. À cet égard, les principes de minimisation et de protection des données dès la conception et par défaut, tels qu’énoncés dans le droit de l’Union sur la protection des données, sont applicables lorsque des données à caractère personnel sont traitées. Les mesures prises par les fournisseurs pour garantir le respect de ces principes peuvent inclure non seulement l’anonymisation et le cryptage, mais aussi l’utilisation d’une technologie qui permet l’introduction d’algorithmes dans les données ainsi que l’entraînement des systèmes d’IA sans transmission entre parties ou copie des données brutes ou structurées elles-mêmes, sans préjudice des exigences en matière de gouvernance des données prévues par le présent règlement.

Considérant 70 Processing of special categories of personal data

Afin de protéger le droit d’autrui contre la discrimination qui pourrait résulter des biais dans les systèmes d’IA, les fournisseurs devraient, à titre exceptionnel, et dans la mesure où cela est strictement nécessaire aux fins de la détection et de la correction des biais en ce qui concerne les systèmes d’IA à haut risque, sous réserve de garanties appropriées pour les libertés et droits fondamentaux des personnes physiques et à la suite de l’application de toutes les conditions applicables prévues par le présent règlement en plus des conditions énoncées dans les règlements (UE) 2016/679 et (UE) 2018/1725 et dans la directive (UE) 2016/680, être en mesure de traiter également des catégories particulières de données à caractère personnel, pour des raisons d’intérêt public important au sens de l’article 9, paragraphe 2, point g), du règlement (UE) 2016/679 et de l’article 10, paragraphe 2, point g), du règlement (UE) 2018/1725.

Table of contents

Springlex and this text is meant purely as a documentation tool and has no legal effect. No liability is assumed for its content. The authentic version of this act is the one published in the Official Journal of the European Union.