Art. 10 Data och dataförvaltning | AI act regulation | AI act

1. AI-system med hög risk som använder teknik som inbegriper träning av AI-modeller med data ska utvecklas på grundval av tränings-, validerings- och testdataset som uppfyller de kvalitetskriterier som avses i punkterna 2–5 när sådana dataset används.
1. Tränings-, validerings- och testdataset ska omfattas av metoder för dataförvaltning och datahantering som är lämpliga för det avsedda ändamålet med AI-systemet med hög risk. Dessa metoder ska särskilt avse
  1. relevanta utformningsval,
  2. datainsamlingsprocesser och uppgifternas ursprung samt, när det gäller personuppgifter, datainsamlingens ursprungliga ändamål,
  3. relevanta åtgärder för datapreparering, såsom annotation, märkning, rensning, uppdatering, förädling och aggregering,
  4. formulering av antaganden, särskilt när det gäller den information som berörda data förväntas beskriva och representera,
  5. en bedömning av tillgängligheten, mängden och lämpligheten avseende de dataset som behövs,
  6. undersökning med avseende på eventuella biaser som sannolikt kommer att påverka människors hälsa och säkerhet, inverka negativt på grundläggande rättigheter eller leda till diskriminering som är förbjuden enligt unionsrätten, särskilt när utdata påverkar indata för framtida drift,
  7. lämpliga åtgärder för att upptäcka, förebygga och begränsa eventuella biaser som identifierats enligt led f,
  8. identifiering av relevanta dataluckor eller brister som hindrar efterlevnad av denna förordning, och hur dessa luckor och brister kan åtgärdas.
1. Tränings-, validerings- och testdataset ska vara relevanta, tillräckligt representativa, och så långt som möjligt fria från fel och fullständiga i förhållande till det avsedda ändamålet. De ska ha lämpliga statistiska egenskaper, inbegripet, i förekommande fall, vad gäller de personer eller grupper av personer med avseende på vilka AI-systemet med hög risk är avsett att användas. Egenskaperna hos dessa dataset kan uppfyllas på nivån för enskilda dataset eller på nivån av en kombination av dessa.
1. Dataseten ska, i den mån som krävs med hänsyn till det avsedda ändamålet, beakta de egenskaper eller element som är utmärkande för just den specifika geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet med hög risk är avsett att användas.
1. I den utsträckning det är absolut nödvändigt för att säkerställa upptäckt och korrigering av bias i samband med AI-systemen med hög risk i enlighet med punkt 2 f och g i denna artikel får leverantörer av sådana system undantagsvis behandla särskilda kategorier av personuppgifter, med förbehåll för lämpliga skyddsåtgärder för fysiska personers grundläggande rättigheter och friheter. Utöver bestämmelserna i förordningarna (EU) 2016/679 och (EU) 2018/1725 och direktiv (EU) 2016/680 måste samtliga följande villkor vara uppfyllda för att sådan behandling ska kunna äga rum:
  1. Upptäckt och korrigering av bias kan inte uppnås på ett effektivt sätt genom behandling av andra data, inbegripet syntetiska eller anonymiserade data.
  2. De särskilda kategorierna av personuppgifter omfattas av tekniska begränsningar för vidareutnyttjande av personuppgifter samt säkerhetsåtgärder och integritetsbevarande åtgärder på en nivå som motsvarar den senaste utvecklingen, inbegripet pseudonymisering.
  3. De särskilda kategorierna av personuppgifter omfattas av åtgärder för att säkerställa att de personuppgifter som behandlas är säkra, skyddade, omfattas av lämpliga skyddsåtgärder, inbegripet strikta kontroller och dokumentation av åtkomsten, för att undvika missbruk och säkerställa att endast personer som är behöriga har tillgång till dessa personuppgifter med lämpliga konfidentialitetsskyldigheter.
  4. De särskilda kategorierna av personuppgifter får inte översändas, överföras eller på annat sätt göras tillgängliga för andra parter.
  5. De särskilda kategorierna av personuppgifter raderas när biasen har korrigerats eller personuppgifternas lagringstid har löpt ut, beroende på vilket som inträffar först.
  6. Registren över behandling enligt förordningarna (EU) 2016/679 och (EU) 2018/1725 och direktiv (EU) 2016/680 innehåller skälen till varför behandlingen av särskilda kategorier av personuppgifter var absolut nödvändig för att upptäcka och korrigera biaser och varför detta mål inte kunde uppnås genom behandling av andra data.
1. För utvecklingen av AI-system med hög risk som inte använder teknik som inbegriper träning av AI-modeller är punkterna 2–5 endast tillämpliga på testdataset.

Data av hög kvalitet och tillgång till data av hög kvalitet spelar en avgörande roll när det gäller att tillhandahålla struktur och att säkerställa många AI-systems prestanda, i synnerhet vid användning av teknik som förutsätter träning av modeller för att säkerställa att AI-system med hög risk fungerar säkert och på avsett sätt och inte blir en källa till diskriminering som är förbjuden enligt unionsrätten. Högkvalitativa dataset för träning, validering och testning förutsätter genomförande av lämpliga metoder för dataförvaltning och datahantering. Dataset för träning, validering och testning, inbegripet märkningarna, bör vara relevanta, tillräckligt representativa och i största möjliga utsträckning fria från fel och fullständiga med tanke på systemets avsedda ändamål. För att underlätta efterlevnaden av unionens dataskyddslagstiftning, såsom förordning (EU) 2016/679, bör dataförvaltnings- och datahanteringsmetoderna när det gäller personuppgifter inbegripa transparens om det ursprungliga syftet med uppgiftsinsamlingen. Dataseten bör också ha lämpliga statistiska egenskaper, även när det gäller de personer eller grupper av personer i fråga om vilka AI-systemet med hög risk är avsett att användas, med särskild uppmärksamhet på att begränsa eventuella biaser i dataseten som sannolikt påverkar människors hälsa och säkerhet, inverkar negativt på grundläggande rättigheter eller leder till diskriminering som är förbjuden enligt unionsrätten, särskilt när utdata påverkar indata för framtida operationer (återföring). Biaser kan exempelvis vara inneboende i underliggande dataset, särskilt när historiska data används eller genereras när systemen tillämpas i verkliga sammanhang. De resultat som AI-system ger kan påverkas av sådana inneboende biaser som tenderar att gradvis öka och därigenom vidmakthålla och förstärka befintliga diskriminering, särskilt för personer som tillhör vissa sårbara grupper, inbegripet rasgrupper eller etniska grupper. Kravet på att dataseten i största möjliga utsträckning ska vara fullständiga och fria från fel bör inte påverka användningen av integritetsbevarande teknik i samband med utveckling och testning av AI-system. I synnerhet bör dataset, i den mån som krävs för deras avsedda ändamål, beakta funktioner, särdrag eller element som är specifika för den särskilda geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet är avsett att användas. De krav som rör dataförvaltning kan uppfyllas genom att tredje parter anlitas som erbjuder certifierade tjänster för uppfyllelse av kraven, inbegripet kontroll av dataförvaltning, datasetens integritet och metoder för träning, validering och testning av data, i den mån överensstämmelse med uppgiftskraven i denna förordning säkerställs.

Artikel 10 Data och dataförvaltning

Relevant recitals