Hoofdstuk 33 Algemene verordening gegevensbescherming

In dit hoofdstuk wordt besproken:
  • Wat zijn persoonsgegevens?
  • Wel of niet verzamelen van persoonsgegevens?
  • Hoe ga je om met persoonsgegevens?
Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):
  • Onderzoekspracticum bachelor thesis (PB9966)
  • Onderzoekspracticum scriptieplan (PM9514)
Dit hoofdstuk bouwt voort op deze andere hoofdstukken:
  • Open science
  • Open data

33.1 Inleiding

Privacy is belangrijk – zo belangrijk dat het recht op privacy is geregeld in artikel 10 van de grondwet (‘Ieder heeft, behoudens bij of krachtens de wet te stellen beperkingen, recht op eerbiediging van zijn persoonlijke levenssfeer’) en in het Internationaal Verdrag inzake burgerrechten en politieke rechten uit 1966.

Het recht op privacy wordt tegenwoordig geregeld in de Algemene verordening gegevensbescherming (AVG; in het Engels de General Data Protection Regulation, GDPR). Deze had nogal wat om het lijf. De AVG werd in 2014 na jarenlange voorbereiding goedgekeurd, en ging na nog meer voorbereiding in 2016 van kracht. Na een gewenningsperiode van twee jaar konden er vanaf 2018 sancties worden opgelegd bij schendingen. Deze sancties kunnen oplopen tot uitzonderlijk hoge bedragen, waardoor organisaties de AVG heel serieus nemen.

De AVG bepaalt wanneer data persoonsgegevens zijn en hoe met persoonsgegevens moet worden omgegaan. Voor iedereen die onderzoek doet, is het daarom belangrijk om minimaal een bescheiden begrip van de AVG te hebben. Het doel van dit hoofdstuk is om dat te verschaffen.

33.2 Persoonsgegevens

Persoonsgegevens zijn gegevens over personen. Enerzijds lijkt dit een heldere definitie, maar schijn bedriegt. Dat komt omdat er maar heel weinig soorten gegevens (oftewel variabelen) zijn die altijd persoonsgegevens zijn. Iemands naam lijkt bijvoorbeeld een persoonsgegeven, maar dat geldt niet voor elke naam.

Als iemands voornaam Gjalt-Jorn is, dan is die voornaam een unieke manier om naar die persoon te verwijzen en dus een persoonsgegeven, maar dit geldt niet voor de voornaam Maria, een van de meest voorkomende voornamen in Nederland. Maar, als we weten dat de betreffende Maria in Slaverden woont, het kleinste dorp van Nederland met rond de 30 inwoners, dan weten we waarschijnlijk, wellicht met enige moeite, wel om wie het gaat.

Dit voorbeeld maakt als het goed is drie dingen duidelijk. Ten eerste, voor bijna alle variabelen zijn zowel situaties te bedenken waarin het persoonsgegevens zijn, als situaties waarin het geen persoonsgegevens zijn. Ten tweede, of een bepaald gegeven een persoonsgegeven is, hangt onder andere af van welke andere gegevens bekend zijn. Ten derde, of je met een of meerdere gegevens weet over wie de gegevens gaan (of het dus persoonsgegevens zijn of niet) hangt ook af van hoeveel moeite je ervoor doet om dat uit te vinden.

De AVG stelt dat persoonsgegevens niet per se beperkt zijn tot gegevens waarbij gelijk duidelijk is over wie ze gaan. Persoonsgegevens zijn ook gegevens op basis waarvan een persoon herleidbaar is zonder onevenredige inspanning. De vraag is dan wel hoeveel moeite nog als redelijk wordt gezien.

Wanneer heb je nu als onderzoeker met persoonsgegevens te maken? Als je een dataset hebt waarmee aan de hand van een of meer kolommen deelnemers geïdentificeerd kunnen worden, dan is ook van de rest van de gegevens in de dataset duidelijk over wie ze gaan. Stel bijvoorbeeld dat je een dataset hebt met antwoorden op vragen uit meetinstrumenten voor psychologische constructen, en die dataset bevat ook kolommen met voornaam, achternaam en geboortedatum. Dan is van elke regel in de dataset duidelijk over wie die regel gaat. Op dat moment is dus elke variabele in de dataset een persoonsgegeven. Als de kolommen met voornaam, achternaam en geboortedatum zijn verwijderd, is geen enkele regel uit de dataset nog herleidbaar tot personen, en zijn diezelfde kolommen met antwoorden op vragen uit meetinstrumenten voor psychologische constructen geen persoonsgegevens meer.

33.3 Kiezen of je persoonsgegevens gaat verzamelen

Sommige variabelen (zoals voor- en achternaam) maken het makkelijker om iemand te identificeren dan andere variabelen (bijvoorbeeld of iemand van komkommer houdt). Bovendien is het zo dat hoe meer gegevens je over dezelfde persoon verzamelt, hoe makkelijker het wordt om die persoon te identificeren. Voor een onderzoek met een gegeven onderzoeksvraag kun je echter maar beperkt veranderingen aanbrengen in deze twee factoren (de aard van de variabelen die worden gemeten en de hoeveelheid variabelen die worden gemeten). Deze volgen immers uit je onderzoeksvraag, onderzoeksontwerp en analyseplan.

Maar er zijn nog twee andere factoren die meebepalen of je uiteindelijk persoonsgegevens verzamelt en deze factoren zijn vaak meer flexibel. Dit zijn de wervingsstrategie en de resolutie waarmee je je variabelen gaat registreren.

Nauw samenhangend met de wervingsstrategie is het sampling frame: alle mogelijke deelnemers van je steekproef. Hoe breder het sampling frame, hoe moeilijker het zal zijn om met een bepaalde hoeveelheid gegevens te herleiden wie een deelnemer is. Vergelijk dit met het voorbeeld over Maria. Als je werft onder alle mensen in Nederland en je weet dat een deelnemer Maria heet, dan kun je deze persoon niet herleiden. Maar als je werft onder de inwoners van Slaverden of onder het onderwijzend personeel op een basisschool in Vaals, en je weet dat een deelnemer Maria heet, dan is de kans dat je kunt herleiden om welke specifieke persoon het gaat al een stuk groter.

Behalve dat een breed sampling frame de identificeerbaarheid van de deelnemers verlaagt, verhoogt het tegelijkertijd de representativiteit van de steekproef en daardoor bovendien de validiteit van generalisaties. Hoewel de mogelijkheden voor je wervingsstrategie worden beperkt door de beschikbare middelen (tijd, energie en geld), kies je in principe dus altijd voor een wervingsstrategie waarbij je sampling frame zo breed mogelijk is (binnen de kaders die volgen uit je onderzoeksvraag).

De resolutie waarmee je je variabelen registreert, oftewel hoe nauwkeurig je de gegevens registreert, is ook van belang. Hoe preciezer je namelijk de gegevens registreert, hoe eerder er unieke combinaties van gegevens ontstaan waarmee je makkelijker iemand kunt identificeren. Een goed voorbeeld is leeftijd. Wanneer je iemands geboortedatum vraagt, kun je iemands leeftijd op de dag precies berekenen. Maar je deelnemers zijn dan wel veel makkelijker te herleiden tot personen dan wanneer je naar hun leeftijd in jaren vraagt, wat weer makkelijker te herleiden is dan wanneer je naar leeftijd vraagt in categorieën van tien jaar.

De keuze voor een lage of hoge resolutie is daarom wat lastiger dan de keuze voor een smal of breed sampling frame. Hoewel je met een lage resolutie de herleidbaarheid van je gegevens tot personen beperkt, beperk je hiermee ook de variantie die je in de gegevens kunt vinden. Dit betekent weer dat je meer deelnemers nodig hebt. Gelukkig geldt voor psychologische variabelen dat de meting hiervan relatief onbetrouwbaar is in vergelijking met de meting van bijvoorbeeld iemands leeftijd. Er zijn zoveel bronnen van meetfout dat als je iemand een meetinstrument voor een aantal psychologische constructen laat invullen, en diezelfde persoon een maand later hetzelfde meetinstrument weer laat invullen, je die antwoorden niet zou kunnen gebruiken om in de eerste dataset te vinden welke data van die deelnemer zijn.

Voor psychologische constructen geldt daarom in de regel dat de resolutie niet uitmaakt voor de identificeerbaarheid van de deelnemers. Dat gaat pas een rol spelen als de test-hertestbetrouwbaarheid uitzonderlijk hoog is. Hoe hoog precies hangt van de resolutie af, maar je kunt ervan uitgaan dat als de proportie verklaarde variantie in de hertest – op basis van de eerste afname – lager is dan \(90\%\) (dus als de correlatie tussen beide testafnames lager is dan \(r=.95\)), dat herleidbaarheid aan de hand van de antwoorden op de vragenlijst niet mogelijk is. Voor andere variabelen, zoals demografische gegevens, speelt resolutie wel een rol en moet je dus goed nadenken over de resolutie die je hanteert.

33.4 Less is more

Hierboven beschreven we dat je niet veel kunt veranderen aan de hoeveelheid variabelen die je registreert, omdat de variabelen die je registreert volgen uit je onderzoeksvraag, onderzoeksontwerp en het analyseplan. Een aanvullende opmerking hierover is op zijn plaats. Vroeger was het gangbaar om ook andere variabelen te meten, ondanks dat ze niet nodig waren, om te bekijken of ze misschien toch ergens mee samenhangen. Inmiddels is onder andere door de replicatiecrisis (zie het hoofdstuk Open science duidelijk dat dit problematisch is. Daarnaast is sinds 2018 de Nederlandse gedragscode wetenschappelijke integriteit van kracht, die onder andere maant tot zorgvuldigheid, verantwoordelijkheid en transparantie.

Het moge duidelijk zijn dat het devies is om zo weinig mogelijk variabelen te registreren. Maar de neiging om toch nog wat extra vragen op te nemen om te kijken of daar een verband mee te vinden is, is een heel menselijke neiging, vooral onder mensen die nieuwsgierig zijn aangelegd. En onderzoek doen is ironisch genoeg vaak ingegeven door nieuwsgierigheid. Wees hier daarom altijd alert op bij jezelf, en gebruik je analyseplannen zoals je die specificeert in de preregistratie van je onderzoek om streng te selecteren wat je gaat registreren.

Verder is het belangrijk om te beseffen dat als je een dataset hebt, en een of meer van de kolommen in die dataset maken het mogelijk om een persoon te identificeren, dat dit dan betekent dat alle kolommen persoonsgegevens bevatten. Van al die variabelen is dan immers ineens bekend over wie ze gaan. En hoe meer variabelen dit zijn, hoe groter het risico voor de deelnemers.

Als je persoonsgegevens verzamelt, stelt de AVG dat je ‘data minimisation’ en ‘privacy by design’ moet toepassen. Data minimisation betekent dat je je moet inspannen om zo weinig mogelijk persoonsgegevens te verzamelen. Als je geen persoonsgegevens verzamelt, is het streven om zo weinig mogelijk data te verzamelen dus ingegeven door wetenschappelijke integriteit en ethiek; en als je wel persoonsgegevens verzamelt, door wetgeving. Privacy by design betekent dat je je moet inspannen om je procedures zo in te richten dat ze zoveel mogelijk zijn ingesteld op het bewaken van de privacy van je deelnemers, en dat je dus alleen persoonsgegevens verzamelt als het echt onvermijdelijk is.

33.5 Persoonsgegevens: samenvatting

Voordat we wat verder de diepte ingaan, vatten we eerst even samen wat we tot nu toe hebben besproken. De vraag of je persoonsgegevens verzamelt, gaat bijna nooit over de vraag welke gegevens je verzamelt. Er bestaan namelijk bijna geen variabelen die altijd een persoonsgegeven zijn, en die paar variabelen die dat wel zijn (bijvoorbeeld iemands burgerservicenummer) zijn bijna nooit nodig voor onderzoek in de sociale wetenschappen.

In plaats daarvan gaat het om het totaalplaatje: hoe breed is je sampling frame, welke variabelen verzamel je, hoeveel variabelen verzamel je en wat is de resolutie van de meting van die variabelen? Wetenschappers moeten zich vanuit wetenschappelijke integriteit inspannen om bij deelnemers zo weinig mogelijk data te verzamelen. Dit streven helpt ook om te voorkomen dat je persoonsgegevens verzamelt. Als je persoonsgegevens verzamelt, dan is dit streven om zo weinig mogelijk data te verzamelen vastgelegd in de AVG.

33.6 Bijzondere persoonsgegevens

Sommige persoonsgegevens zijn ‘bijzondere persoonsgegevens’. Dit geldt bijvoorbeeld voor iemands godsdienst of medische informatie. Voor bijzondere persoonsgegevens geldt dat er extra strenge regels gelden als je deze wilt verzamelen.

Onthoud echter dat je kunt vragen naar iemands godsdienst of medische informatie zonder persoonsgegevens te verzamelen. Godsdienst of medische informatie zijn namelijk niet altijd persoonsgegevens. Als ik zeg dat Maria katholiek is en geen borstkanker heeft, dan geef ik geen informatie over een identificeerbaar persoon, ondanks dat ik iemands naam, godsdienst en een medische status vermeld. Het is namelijk onmogelijk om te bepalen over wie dit gaat.

Ook bijzondere persoonsgegevens zijn dus niet altijd persoonsgegevens. In een onderzoek kun je daarom zonder problemen bijvoorbeeld iemands godsdienst registreren. Maar, als de deelnemers in je onderzoek identificeerbaar zijn, dan moet je aan zwaardere eisen voldoen omdat je op dat moment ook bijzondere persoonsgegevens verwerkt.

Enerzijds zijn dit soort variabelen, die mogelijk bijzondere persoonsgegevens zouden kunnen zijn, niet áltijd persoonsgegevens en zou je ze dus zonder problemen kunnen registreren in je onderzoek. Anderzijds kleeft hier een risico aan waardoor je nog steeds heel erg zorgvuldig moet zijn.

Omdat er extra eisen worden gesteld aan de verwerking van bijzondere persoonsgegevens, is het sterk af te raden deze gegevens te verzamelen als dit niet strikt noodzakelijk is voor het beantwoorden van je onderzoeksvraag. Met name in een onderzoek waar je ook persoonsgegevens verzamelt, is het belangrijk om zoveel mogelijk te vermijden dat je vraagt naar bijvoorbeeld medische informatie, godsdienst of seksuele voorkeur. Als je zeker weet dat je geen persoonsgegevens verzamelt, dan kun je dit wel doen.

33.7 Hoe verwerk je persoonsgegevens?

Wat als het je niet lukt om het (mogelijk) registreren van persoonsgegevens te vermijden? In dat geval moet je weten wat je moet regelen als je persoonsgegevens verwerkt. Een handig uitgangspunt is het lijstje van rechten dat je hebt als iemand anders jouw persoonsgegevens verwerkt.

  • Het recht om heel duidelijk, zonder moeilijke juridische taal, te worden geïnformeerd over wat er precies met je persoonsgegevens gebeurt.
  • Het recht op inzage: je mag altijd een kopie opvragen van de persoonsgegevens die een organisatie van je heeft. In de praktijk zijn dit alle gegevens die een organisatie over jou heeft. Als de organisatie namelijk weet wie jij bent, dan zijn alle gegevens die daaraan gekoppeld kunnen worden herleidbaar naar jou.
  • Het recht om vergeten te worden: je mag de organisatie de opdracht geven alle gegevens over jou te verwijderen en zij moeten dit dan doen. Je hebt ook het recht om bezwaar te maken tegen de verwerking van je gegevens: dit is net iets anders, maar komt er ook op neer dat je gegevens niet meer gebruikt worden.
  • Het recht om de gegevens te veranderen: je mag jouw persoonsgegevens altijd aanpassen.
  • Het recht om aan te geven welke verwerkingen er wel en niet mogen worden uitgevoerd met je gegevens.
  • Het recht om je gegevens te laten overnemen door een andere organisatie.
  • Het recht om geen beslissingen te laten nemen op basis van jouw gegevens zonder dat een mens ernaar kijkt (dus, om volledig geautomatiseerde beslissingen te weigeren).

Vanuit het perspectief van een onderzoeker betekenen deze rechten dat je procedures moet voorbereiden en documenteren over hoe je deze rechten faciliteert. Veel organisaties hebben hier inmiddels gestandaardiseerde procedures voor, die vaak betekenen dat je aan interne richtlijnen moet voldoen en ervoor moet zorgen dat je onderzoek op de goede plek wordt geregistreerd (zie de paragraaf Privacy Officer). Daarnaast moet je een verwerkingsregister hebben. Dit is een uitgebreid register waarin je alles documenteert rondom de verwerking van persoonsgegevens.

Voor kwantitatief onderzoek is het bijhouden van een verwerkingsregister vrij eenvoudig en volgt automatisch uit het werken volgens de principes van wetenschappelijke integriteit. Deze houden onder andere in dat je je onderzoek zorgvuldig en transparant uitvoert, waaruit volgt dat alle data-analyses vastgelegd moeten worden en reproduceerbaar moeten zijn. Dit kun je eenvoudig bereiken door met jamovi te werken (waarmee de data, analyses en resultaten altijd samen worden opgeslagen) of door in R of SPSS met analysescripts te werken (‘syntax’ in SPSS).

Voor kwalitatief onderzoek moet je zorgen voor een overzicht van alle verwerkingen. Sommige pakketten, zoals de Reproducible Open Coding Kit, lenen zich hier goed voor; andere pakketten wat minder. Een andere eenvoudige oplossing is om ervoor te zorgen dat je alleen geanonimiseerde kwalitatieve data analyseert. Op die manier hoeft je verwerkingsregister alleen de procedures te beschrijven waarmee je de data anonimiseert (zie de paragraaf Anonimiseren).

Naast de verwerkingen zelf moet je bijhouden wie bij de persoonsgegevens kunnen. Dit moeten zo weinig mogelijk mensen zijn. In een regulier onderzoek met een beperkte looptijd is dit meestal te beperken tot drie personen. Toegang beperken tot persoonsgegevens kun je realiseren door de persoonsgegevens te versleutelen met een sterk wachtwoord dat veilig wordt opgeslagen door degenen met toegang tot die persoonsgegevens (zie de paragraaf Versleuteling).

33.8 Wanneer mag je persoonsgegevens verwerken?

Je mag alleen iemands persoonsgegevens verwerken op basis van een van de volgende zes grondslagen.

  • Toestemming (consent): als je toestemming hebt om iemands persoonsgegevens te verwerken.
  • Een overeenkomst: als het verwerken van persoonsgegevens nodig is om een overeenkomst uit te voeren.
  • Een wettelijke verplichting: als je wettelijk verplicht bent om persoonsgegevens te verwerken.
  • Vitale belangen: als je bijvoorbeeld iemands leven kunt redden door hun bloedgroep te noemen.
  • Taak van algemeen belang of openbaar gezag: overheden, of mensen in dienst van de overheid, als di nodig is om hun werk te kunnen doen.
  • Gerechtvaardigd belang: als je een gerechtvaardigd belang hebt dat het nodig maakt om persoonsgegevens te verwerken.

De laatste vijf zijn aanmerkelijk complexer dan de eerste. Bovendien wordt bij wetenschappelijk onderzoek in de praktijk bijna altijd gebruikgemaakt van ‘consent’. Dat betekent dat deelnemers expliciet toestemming geven tot de verwerking van hun persoonsgegevens. Omdat bij wetenschappelijk onderzoek sowieso ‘informed consent’ nodig is om zeker te stellen dat deelnemers volledig zijn geïnformeerd over het onderzoek en vrijwillig meedoen, kunnen deze twee vormen van consent eenvoudig worden gecombineerd.

Het is wel belangrijk om deze twee vormen van consent te blijven onderscheiden. Consent in de zin van de AVG volstaat niet als informed consent als middel om op een wetenschappelijk integere, ethische manier onderzoek te doen. Andersom volstaat ‘ethisch informed consent’ niet om persoonsgegevens te verwerken. Bovendien is ethisch informed consent altijd nodig bij wetenschappelijk onderzoek, of er nu persoonsgegevens worden verwerkt of niet.

Hoewel het dus twee verschillende dingen zijn, worden het AVG-consent en het ethisch informed consent in de praktijk bijna altijd gecombineerd in een formulier, dat dan ook weer het ‘informed consent’ heet. Als er kwalitatieve data worden verzameld, is dit bovendien de plaats om het intellectueel eigendom van de data vast te leggen, door ook de licentie toe te voegen (zie het hoofdstuk Intellectueel Eigendom.

33.9 De privacy officer en de functionaris gegevensbescherming

Bij grotere organisaties vervullen de privacy officer (PO) en de functionaris gegevensbescherming (FG) twee deels complementaire, deels overlappende rollen in het bewaken van de AVG. Waar de PO fungeert als adviseur en begeleider bij het doorlopen van AVG-gerelateerde procedures (zoals het invullen van Data Protection Impact Assessments, DPIAs), heeft de FG meer de rol van toezichthouder. De FG heeft ontslagbescherming en kan dus onafhankelijk adviseren.

Bij de Open Universiteit maakt de PO deel uit van het bestuur van de commissie Ethische Toetsing Onderzoek (cETO). Omdat al ons onderzoek waarbij data bij mensen worden verzameld eerst moet worden goedgekeurd door de cETO, kan de PO eenvoudig meekijken of we ons onderzoek conform de AVG gaan uitvoeren. Er wordt niet alleen gelet op of er persoonsgegevens worden verwerkt, en zo ja, of alle procedures daar omheen voldoende zorgvuldig zijn uitgewerkt, maar ook of er geen applicaties of diensten worden gebruikt waarbij mogelijk persoonsgegevens worden geregistreerd (zie de paragraaf Software).

33.10 Anonimiseren

Anonimiseren is het bewerken van persoonsgegevens zodat de bewerkte versie van de dataset niet langer gegevens bevat die te herleiden zijn tot personen. Een extreem voorbeeld is het verwijderen van alle data uit de dataset: dit is per definitie effectief anonimiseren. In de praktijk is het doel van anonimiseren om een dataset te creëren die veilig openbaar gemaakt kan worden en wil je dus zoveel mogelijk data bewaren.

Als in een dataset een of enkele kolommen zijn opgenomen waarmee personen geïdentificeerd kunnen worden, zoals naam, e-mailadres of geboortedatum, dan kan de dataset worden geanonimiseerd door die kolommen te verwijderen. Als de resulterende dataset bijvoorbeeld alleen informatie bevat over godsdienst, leeftijd, de BigFive-persoonlijkheidskenmerken (extraversie, openheid, neuroticisme, vriendelijkheid en conscientieusheid) en vragenlijsten over zelfregulatie, gewoonte en impulscontrole, dan is die nieuwe dataset geanonimiseerd en kan die veilig worden gedeeld.

Bij kwalitatief onderzoek bestaat anonimiseren eruit dat in de transcripten alle verwijzingen naar personen, plaatsen en tijden worden aangepast of verwijderd, zodat uit het resulterende transcript niet kan worden afgeleid over wie het gaat. Soms vereist dit ook verwijdering of aanpassing van andere elementen van het transcript. Deze geanonimiseerde versie wordt vervolgens voorgelegd aan de deelnemers, die controleren of ze inderdaad vinden dat het transcript niet naar hen te herleiden is.

Als het verzamelen van persoonsgegevens in een project onvermijdelijk is, dan is het anonimiseren van de data normaal gesproken het eerste dat je doet na de dataverzameling. Wanneer mogelijk, worden alle analyses dan alleen uitgevoerd op de geanonimiseerde dataset. Na het anonimiseren worden de geanonimiseerde data openbaar gemaakt in een repository (zie het hoofdstuk Open Science.

De ruwe (niet-geanonimiseerde) data worden versleuteld zodat niemand erbij kan zonder het wachtwoord. Deze data worden verder niet meer gebruikt en na een bepaalde periode vernietigd. Deze periode kan bijvoorbeeld tien jaar zijn, of vijf jaar. Vanuit de AVG wil je deze periode zo kort mogelijk houden, maar vanuit zorgvuldigheid moet het wel mogelijk blijven om dingen terug te zoeken, bijvoorbeeld als later blijkt dat er misschien iets fout is gegaan in de anonimiseringsprocedure.

33.11 Pseudonimisering

In plaats van data te anonimiseren, kunnen data ook gepseudonimiseerd worden. Dat betekent dat er een ‘bijna-geanonimiseerde’ dataset wordt geproduceerd die een unieke identifier voor elke deelnemer bevat. Door die unieke identifier te combineren met een of meerdere andere datasets kunnen de data dan alsnog herleid worden tot de personen waarover de data gaan.

Een voorbeeld van pseudonimisering is het toekennen van proefpersoonnummers aan deelnemers, waarbij je in de ene dataset hun data opslaat en in de andere dataset hun naam en e-mailadres. Als iemand nu beide datasets heeft, zijn alle data persoonsgegevens. Als iemand alleen de eerste dataset heeft, zijn de data voor die persoon niet herleidbaar en heeft die persoon dus geen persoonsgegevens.

Het is belangrijk om te vermelden dat gepseudonimiseerde data volgens de AVG precies zo behandeld moeten worden als persoonsgegevens. Pseudonimisering verandert dus niet wat je wel of niet met de data mag of moet. Het openbaar maken van data, zoals de Nederlandse gedragscode wetenschappelijke integriteit en de openscience-principes voorschrijven, vereist dus altijd het anonimiseren van data.

33.12 Versleuteling

Het versleutelen van gegevens betekent dat ze onleesbaar worden gemaakt. Om zo’n versleuteld bestand te lezen is het wachtwoord nodig waarmee het bestand is versleuteld. Als zowel de encryptie (de versleuteling) als het wachtwoord voldoende sterk zijn en als het wachtwoord veilig is opgeslagen (in een bestand dat ook weer is versleuteld met een ander, sterk wachtwoord), dan zijn de versleutelde gegevens niet te bemachtigen via een redelijke investering zoals bedoeld in de AVG.

Concreet betekent dit vaak een 256-bits AES-encryptie met een wachtwoord met een hoge entropie (128-bits of meer). Dit klinkt misschien ingewikkeld, maar gelukkig is er uitstekende software die hierbij kan helpen. Hiervoor heb je twee softwareprogramma’s nodig: compressie- en archiveringssoftware en een wachtwoordenmanager. Twee opensource-programma’s die hiervoor heel geschikt zijn, zijn 7-zip en KeePass2.

De compressie- en archiveringssoftware 7-zip kan een of meerdere bestanden inpakken in een versleuteld archief. Hierdoor nemen de bestanden minder ruimte in, zijn ze handzaam gecombineerd in één bestand en kunnen ze worden beschermd met een wachtwoord. Omdat 7-zip een 256-bits AES-encryptie ondersteund, kun je dit programma gebruiken om data voldoende sterk te versleutelen. Voor die versleuteling moet je dan een sterk wachtwoord gebruiken die je veilig opslaat.

Daarvoor gebruik je KeePass2. Dit is een wachtwoordenmanager, oftewel een programma waarmee je al je wachtwoorden veilig kunt opslaan in een versleutelde databank. Om die databank met al je wachtwoorden te ontsleutelen heb je dan ook weer een sterk wachtwoord nodig, dat je uit je hoofd moet leren. Als je dat eenmaal hebt gedaan, is dat het enige wachtwoord dat je nog hoeft te onthouden.

Met KeePass2 kun je ook wachtwoorden genereren, bijvoorbeeld een unieke string van letters, cijfers en speciale karakters zoals v^F|Vc"mwB6F7.MgW6uGkdj/gGbba<. Dit voorbeeld is 30 karakters lang en KeePass2 berekent een entropie van 175 bits. Dat betekent dat het niet mogelijk is om dit wachtwoord te kraken (hoe langer het wachtwoord en hoe meer verschillende karakters het bevat, hoe grote de entropie en dus hoe moeilijker te kraken).

Wachtwoorden mag je nooit delen via e-mail. E-mails zijn normaal niet versleuteld en kunnen dus relatief eenvoudig worden gekraakt. Er zijn vier manieren waarop je toch veilig wachtwoorden kunt delen.

  1. Je kunt met iedereen waarmee je het wachtwoord wilt delen, een e-mailversleuteling activeren. Dit is vrij technisch en wordt hier verder niet besproken.
  2. Je kunt het wachtwoord uitwisselen via een veilige dienst. Signal is bijvoorbeeld een opensource-applicatie en -dienst waarmee je via een beveiligd kanaal wachtwoorden kunt uitwisselen.
  3. Je kunt de online dienst One Time Secret gebruiken: Time Secret. Hier kun je een wachtwoord invoeren en dan krijg je een link die je iemand kan sturen (en op die link kun je dan ook weer een wachtwoord plaatsen). Zodra deze persoon het wachtwoord heeft gezien, wordt de link verwijderd.
  4. Je kunt met onderzoekers een KeePass2-database delen. Deze kun je bijvoorbeeld delen via ResearchDrive of zelfs via e-mail (want KeePass2-databases zijn toch versleuteld). Deze aanpak is handig als je meerdere wachtwoorden moet delen, bijvoorbeeld bij kwalitatief onderzoek waar je vaak elke audio-opname zo snel mogelijk en dus apart versleuteld.

Hieronder staan twee voorbeeldprocedures: een voor kwantitatief onderzoek en een voor kwalitatief onderzoek.

33.12.1 Kwantitatief onderzoek: voorbeeldprocedure

Bij kwantitatief onderzoek verkrijg je de data via een of meer bronsystemen (bijvoorbeeld LimeSurvey). Deze datasets kun je dan downloaden en importeren in een programma waarmee de je de data kunt bewerken en analyseren (bijvoorbeeld met R of jamovi). Als je persoonsgegevens verzamelt, dan kun je de volgende versleutelingsprocedure hanteren.

  1. Zorg dat in het informed consent toestemming wordt gegeven voor het tijdelijk verwerken van persoonsgegevens en voor het vrijgeven van de geanonimiseerde data in het publieke domein.
  2. Verzamel de data.
  3. Anonimiseer de data en publiceer de geanonimiseerde dataset op het Open Science Framework.
  4. Maak een sterk wachtwoord aan van minstens 128-bits entropie en sla het op in KeePass2.
  5. Deel het wachtwoord met je begeleider via Signal, OneTimeSecret of via een gedeelde KeePass2-database.
  6. Versleutel de ruwe data via 7-zip met 256-bit AES-encryptie met dat wachtwoord.
  7. Deel het versleutelde bestand met de ruwe data met je begeleider en eventueel met andere onderzoekers in het team. Het maakt niet zoveel uit hoe je dat doet; zelfs als iemand anders het versleutelde bestand te pakken zou krijgen, dan zou die er nog niets mee kunnen. Zonder sleutel heeft die persoon geen persoonsgegevens in handen.
  8. Controleer of je het versleutelde bestand goed kunt openen en laat de andere ontvangers dat ook doen.
  9. Als je zeker weet dat iedereen de versleutelde ruwe data kan openen, verwijder je het oorspronkelijke bestand met de ruwe data.
  10. Tot slot verwijder je de data uit het bronsysteem (bijvoorbeeld LimeSurvey).

De procedure die je in een gegeven onderzoek volgt, leg je van tevoren vast in je datamanagementplan. De Open Universiteit heeft een data steward in dienst die medewerkers hierover kan adviseren.

33.12.2 Kwalitatief onderzoek: voorbeeldprocedure

Als je kwalitatief onderzoek doet, sla je meestal audio-opnames of video-opnames op. Op basis hiervan worden transcripten gemaakt: tekstbestanden met wat mensen zeggen en/of beschrijvingen van wat er gebeurt. Een versleutelingsprocedure kan dan bijvoorbeeld als volgt zijn.

  1. Zorg dat in het informed consent toestemming wordt gegeven voor het tijdelijk verwerken van persoonsgegevens en voor het vrijgeven van het geanonimiseerde transcript in het publieke domein.
  2. Houd een interview en maak een geluidsopname.
  3. Transcribeer de data en anonimiseer het transcript.
  4. Check bij de deelnemer of deze akkoord gaat met de anonimisering.
  5. Zo nee, zorg dat het wel goed wordt geanonimiseerd.
  6. Als het transcript goed is geanonimiseerd, voeg het dan toe aan het repository voor je onderzoek op het Open Science Framework (check dit eerst bij je begeleider!).
  7. Maak een sterk wachtwoord aan van minstens 128-bits entropie en sla het op in KeePass2.
  8. Deel het wachtwoord met je begeleider via Signal, OneTimeSecret of via een gedeelde KeePass2-database.
  9. Versleutel de audio-opname via 7-zip met 256-bit AES-encryptie met dat wachtwoord.
  10. Deel het versleutelde bestand met de ruwe data met je begeleider en eventueel met andere onderzoekers in het team. Het maakt niet zoveel uit hoe je dat doet; zelfs als iemand anders het versleutelde bestand te pakken zou krijgen, dan zou die er nog niets mee kunnen. Zonder sleutel heeft die persoon geen persoonsgegevens in handen.
  11. Controleer of je het versleutelde bestand goed kunt openen en laat de andere ontvangers dat ook doen.
  12. Als je zeker weet dat iedereen de versleutelde ruwe data kan openen, verwijder je het oorspronkelijke bestand met de ruwe data.
  13. Tot slot verwijder je de data uit het bronsysteem (bijvoorbeeld de audiorecorder of een applicatie zoals Teams).

De procedure die je in een gegeven onderzoek volgt, leg je van tevoren vast in je datamanagementplan. De Open Universiteit heeft een data steward in dienst die medewerkers hierover kan adviseren.

33.13 Software

De AVG is niet alleen belangrijk rondom dataverzameling, maar heeft ook implicaties voor de software (en andere diensten) die gebruikt mogen worden. Online applicaties en diensten, bijvoorbeeld e-mailproviders, cloud- en synchronisatiediensten, online vragenlijstapplicaties en online office suites verwerken de persoonsgegevens van hun gebruikers.

In hun privéleven kunnen volwassenen zelf bepalen of ze met zo’n aanbieder in zee gaan en dus akkoord gaan met de voorwaarden waaronder die aanbieder hun persoonsgegevens gaat verwerken. Voor wetenschappelijk onderzoek bij de Open Universiteit kan dat niet. De Open Universiteit heeft hier een verantwoordelijkheid, die zich onder andere manifesteert in procedures en regels over welke diensten en applicaties gebruikt mogen worden.

Om die reden mag je voor onderzoek geen gebruik maken van Dropbox of Gmail, maar gebruik in plaats daarvan een e-mailadres van de Open Universiteit of ResearchDrive. Op die manier kan de privacy officer garanderen dat persoonsgegevens die namens de Open Universiteit worden verwerkt, bijvoorbeeld van onze studenten, medewerkers en deelnemers, altijd zorgvuldig worden verwerkt en dat er adequate maatregelen zijn getroffen om bijvoorbeeld datalekken tegen te gaan.

Er zijn twee kenmerken van software die een eerste indruk kunnen geven van hoe riskant het gebruik is. Ten eerste zitten er meer risico’s aan applicaties met een gesloten broncode dan aan applicaties waarbij iedereen de broncode kan inzien. Opensource-applicaties kunnen namelijk niet stiekem de data met derden delen omdat alle functionaliteit van de applicatie inzichtelijk is. Maak dus gebruik van opensource-applicaties (dit doe je sowieso al vanwege de openscience-principes en de Nederlandse gedragscode wetenschappelijke integriteit).

Ten tweede zijn clouddiensten, waarbij de gebruiker een applicatie gebruikt via de browser, riskanter dan desktopapplicaties, die de gebruiker download en lokaal op diens pc gebruikt. Bij desktopapplicaties is het zeldzaam (maar niet onmogelijk) dat gegevens op een server worden verwerkt. Zulke applicaties kunnen meestal ook zonder internetverbinding worden gebruikt. In dat geval is er geen dataverwerking door een andere partij en blijven alle data gewoon binnen het beheer van de Open Universiteit.

De Open Universiteit heeft een lijst van software die is goedgekeurd om te gebruiken met instemming van de privacy officer. Deze lijst is als pdf te vinden op het intranet (mijnOU). Je begeleider kan je een up-to-date versie sturen door in het thema Onderzoek het Onderzoek ABC te openen. Als je een dienst of applicatie wilt gebruiken die niet in die lijst staat, moet je een verzoek voor goedkeuring indienen bij de privacy officer. Alleen medewerkers kunnen dit doen, dus vraag zo nodig je begeleider om dat verzoek in te dienen. Houd er rekening mee dat er nogal wat tijd overheen kan gaan voordat het proces van goedkeuring doorlopen is.