Anonimiseren en pseudonimiseren: de verschillen, uitdagingen en technieken

Inhoudsopgave

Zoals waarschijnlijk bij menig lezer van deze blog bekend is, is de Algemene verordening gegevensbescherming (AVG) van toepassing op persoonsgegevens (zie art. 2 lid 1 AVG). Onder persoonsgegevens vallen, kort gezegd, alle gegevens die over een geïdentificeerde of identificeerbare persoon (art. 4 lid 1 AVG). Zoals ik al vaker heb uitgelegd zijn ontzettend veel gegevens aan te merken als persoonsgegevens. Vandaar dat het natuurlijk handig is als je die De AVG wordt vaak onnodig strikt of zelfs geheel onjuist geïnterpreteerd, waardoor je situaties krijgt dat mensen de AVG als ontzettend lastig ervaren. Dat is zonde. Ik ben namelijk van mening dat in principe alles mag, mits je daar een goede reden voor hebt. Als je vanuit die benadering te werk gaat, zul je zien dat er veel mogelijk is onder de AVG. En ja, dan blijven altijd situaties bestaan dat de AVG een bepaalde handeling belemmert. Maar het is waarschijnlijk goed dat de lokale autogarage niet jouw medisch dossier mag verwerken.Dat kun je bijvoorbeeld bereiken door ten eerste gewoon geen persoonsgegevens te verwerken als dat niet nodig is. Voorkomen is beter dan genezen.

Ten tweede is het mogelijk om gegevens te anonimiseren of aggregeren, waardoor deze niet meer als persoonsgegevens Zie overweging 26 AVG.Omdat ik zelf zeer frequent misvattingen over anonieme gegevens tijdens mijn werk tegenkom, zet ik in deze blog uiteen wat het verschil is met pseudonieme gegevens. Vervolgens licht ik verscheidene pseudonimiserings- en anonimiseringstechnieken toe, die gebruikt kunnen worden om gegevens respectievelijk te beschermen of te anonimiseren.

Het verschil tussen anonimisering en pseudonimisering

Het beschermen van persoonsgegevens is een belangrijk onderdeel van de AVG. Zo is in art. 25 van de AVG opgenomen dat de zogeheten privacy by design en privacy by default in acht moeten worden genomen. Dat houdt in dat je al in de ontwerpfase van processen en applicaties rekening dient te houden met privacy en gegevensbescherming en de meest strikte instellingen als standaard dient in te stellen. Twee belangrijke elementen om aan privacy by design en default te voldoen en gegevens te beschermen (krachtens art. 32 AVG), zijn anonimisering en pseudonimisering. Hoewel deze termen vaak – bewust of onbewust – door elkaar worden gebruikt, zijn er belangrijke verschillen tussen de twee.

Pseudonimisering houdt in dat persoonsgegevens worden verwerkt op een manier waarbij de gegevens niet langer kunnen worden toegeschreven aan een specifieke persoon zonder het gebruik van aanvullende informatie. Dit betekent dat de gegevens nog steeds identificeerbaar zijn, maar dat de identiteit van de persoon achter de gegevens niet zonder meer kan worden vastgesteld. Deze techniek draagt bij aan het beschermen van persoonsgegevens, omdat het de privacy van individuen beschermt terwijl de gegevens nog steeds bruikbaar zijn voor analyse en onderzoek. Ook is het vaak een stuk lastiger om gelekte gegevens te misbruiken wanneer deze met een goede techniek zijn gepseudonimiseerd.

Ik probeerde grappig te zijn en een vat dat data lekt te genereren ('>artificial intelligence (AI) die anonimisering weer om kunnen draaien, blijkt het een hele klus om gegevens te anonimiseren en anoniem te houden. Heel vaak gaat het dus om pseudonimisering in plaats van anonimisering. Daar is niks mis mee: degelijke pseudonimisering draagt sterk bij aan de bescherming van persoonsgegevens. Maar, je valt dan dus nog steeds onder de AVG.
Nu duidelijk is wat het verschil tussen pseudonimisering en anomisering is, ga ik hieronder in op verscheidene technieken. Ik begin met de meest basale techniek en eindig met geavanceerde technieken. Hoewel sommige technieken uitsluitend als pseudonimisering worden aangemerkt (zoals data masking, hashing en encryptie) kan op voorhand niet worden gezegd dat sommige technieken altijd tot anonimisering leiden. Vaak dienen extra waarborgen te worden genomen of meerdere technieken te worden gebruikt om te spreken van anonieme data.

Pseudonimisering

Data masking

Data masking is – afhankelijk van de definitie – een basale pseudonimiseringstechniek waarbij (delen van) gegevens worden verborgen door deze te vervangen met fictieve gegevens. Deze methode is nuttig voor het beschermen van persoonsgegevens tijdens test- en ontwikkelingsprocessen, aangezien ontwikkelaars en testers toegang hebben tot realistische gegevens zonder de privacy van individuen in gevaar te brengen. Zolang er maar niet wordt getest met productiedata; we zijn immers geen barbaren, toch? Toch..?

Ik weet zeker dat iedereen weleens voorbeelden van data masking tegen is gekomen. Denk bijvoorbeeld aan je wachtwoord dat je gebruikt voor je meest gevoelige accounts. In plaats van ‘123456’ of de geboortedatum van je kind (maar serieus, hopelijk zijn we dit wachtwoordstadium al lang voorbij), zie je enkel ****** staan. Datzelfde wordt ook vaak gedaan bij het invoeren van creditcards of rekeningnummers, waar dan iets als ***** ****34 te zien is. Daarnaast kunnen gegevens door elkaar gehusseld worden of nummers volledig worden vervangen met willekeurige tekens, waarbij er een (hopelijk sterk beveiligd) bestand is waar de oorspronkelijke nummers aan de willekeurige zijn gekoppeld.

Encryptie

Encryptie houdt in dat gegevens worden omgezet in een onleesbare vorm met behulp van een algoritme en een geheime sleutel. Alleen partijen met toegang tot de juiste sleutel kunnen de gegevens weer leesbaar maken; decryptie. Dit zorgt voor een extra beveiligingslaag, aangezien onbevoegde partijen de gegevens niet kunnen herleiden tot individuen zonder de sleutel. Hoewel encryptie de link tussen de gegevens en de betrokkene verzwakt, blijft er een verband bestaan, en kunnen de gegevens in sommige gevallen nog steeds naar de betrokkene worden herleid als de sleutel wordt gecompromitteerd of als de encryptiemethode wordt gekraakt. Toch gebeurt dit afhankelijk van de methode niet vaak en is encryptie daarom een goede techniek om data onbruikbaar te maken voor hackers.

[caption id="attachment_13058" align="aligncenter" width="400"] Hash browns, een ander soort hash (die andere soort lag te erg voor de hand)

Hashing

Hashing is een techniek om gegevens om te zetten in een unieke, willekeurige reeks karakters die niet kunnen worden teruggerekend naar de oorspronkelijke gegevens, de hash-waarde. Tenminste, mijn hoofdrekenen heeft het nog niet kunnen winnen van de techniek. Deze hash-waarde kan worden gebruikt om te identificeren welke gegevens bij elkaar horen, maar kan niet worden gebruikt om de oorspronkelijke gegevens te herleiden. Deze techniek wordt vaak gebruikt om wachtwoorden te beveiligen, maar kan ook worden gebruikt voor andere gevoelige gegevens. Stel dat mijn wachtwoord ‘Steven’ is, dan ziet de hash er als volgt uit c44e1acacdf5711ffa393d32636dc596. Die hash is altijd hetzelfde, maar je kan de waarde niet omkeren om weer ‘Steven’ Al bestaat er ook nog zoiets als rainbow tables. Rainbow tables zijn lange lijsten met vooraf berekende hash-waarden van veelvoorkomende wachtwoorden en andere gegevens. Ze worden gebruikt om snel wachtwoorden te kraken door de hashwaarde te vergelijken met de waarden in de tabel. Salting is een techniek waarbij een willekeurige waarde (de salt) wordt toegevoegd aan de platte tekst vóór het hashen. Dit resulteert in een unieke hash, zelfs als de oorspronkelijke platte tekst hetzelfde is. Door salting wordt het gebruik van rainbow tables onpraktisch, omdat aanvallers voor elke mogelijke salt een aparte rainbow table moeten genereren, wat enorm veel tijd kost.

Generalisatie

Bij generalisatie gegevens worden gegevens geaggregeerd of gegeneraliseerd om identificatie van individuen te bemoeilijken. Drie belangrijke concepten binnen generalisatie zijn en t-gelijkenis.

Om k-anonimiteit te bereiken, moet een bepaalde combinatie aan gegevens in een dataset aan minstens k-1 toegeschreven kunnen worden. Dat wordt vaak gedaan door identificerende kenmerken te vervangen door brede categorieën. Bijvoorbeeld door de leeftijden van personen te vervangen door groepen van leeftijden zoals 0-9, 10-19, 20-29 etc.

Door l-diversiteit (de kleine letter ‘L’, niet een grote letter ‘i’) wordt voortgebouwd op k-anonimiteit. In plaats van alleen te kijken naar identieke gegevens, probeert l-diversiteit ook de gevoelige gegevens binnen de dataset te diversifiëren. Dit betekent dat binnen elke groep, de gevoelige gegevens van de individuen voldoende variëren, waardoor het moeilijker wordt om specifieke gevoelige informatie aan een individu te koppelen.

Tot slot is er t-gelijkenis een techniek waarbij de mate van overeenkomst tussen twee datasets wordt beperkt. Dit wordt gedaan door de data te generaliseren zodat deze niet te veel lijkt op de originele dataset, terwijl het doel van de data-analyse behouden blijft.

Deze drie technieken worden vaak samen gebruikt om hopelijk tot anonieme gegevens te komen, en anders tot sterke pseudonimisering. Bijvoorbeld: door k-anonimiteit worden de geboortedata van personen gegeneraliseerd naar leeftijdsgroepen. Vervolgens zorgt l-diversiteit voor diversiteit binnen elke leeftijdsgroep, bijvoorbeeld door te zorgen dat er minstens drie verschillende beroepen voorkomen binnen elke leeftijdsgroep. Door t-gelijkenis wordt de dataset gegeneraliseerd zodat deze niet te veel lijkt op de originele dataset, terwijl het doel van de data-analyse behouden blijft.

Differentiële privacy

Met deze techniek wordt informatie over individuen in datasets beschermd door willekeurige ruis toe te voegen aan gegevensaanvragen door derden. Dit zorgt ervoor dat het onmogelijk is om een individu te identificeren op basis van hun gegevens, zelfs als de aanvaller toegang heeft tot alle andere gegevens in de dataset. Deze techniek wordt bijvoorbeeld vaak gebruikt om derden toegang tot jouw datasets te verlenen, zonder dat je individueel identificerende gegevens deelt.

Hoewel differentiële privacy leidt tot anonimiteit vanuit het oogpunt van de ontvangers, zijn de gegevens door jou nog te herleiden naar personen. Daarom leidt dit niet tot anonimisering in de zin van de AVG, maar kan het wel worden gebruikt in combinatie met andere technieken om tot een sterke bescherming of zelfs anonimiteit te komen. Ook is het van belang op te merken dat deze techniek kan leiden tot verminderde nauwkeurigheid van gegevens, wat je dus bij iedere verstrekking van gegevens in acht dient te nemen.

Multi-party computation

Over multi-party computation (MPC) heb ik tijdens een training een uitleg gekregen van een cryptograaf, Toon Segers van Roseman Labs, die betrokken is bij de ontwikkeling van de techniek. Hoewel ik die uitleg, gepaard met informatie van het internet, gebruik om hier tot een uitleg te komen, blijft het voor mij complexe materie. Waar het op neerkomt is dat het met MPC mogelijk is om berekeningen uit te voeren op gegevens van meerdere partijen (meer specifiek privacyzones, dus meerdere organisaties is niet per se nodig), zonder dat de partijen hun gegevens hoeven te delen. Dit biedt een sterke privacygarantie, aangezien de gegevens van elke partij geheim blijven, terwijl de uitkomst van de berekeningen wel kan worden gedeeld.

MPC is vooral van belang in sectoren waarin meerdere partijen samenwerken en gevoelige informatie moeten delen, zoals de financiële sector en de gezondheidszorg. Een voorbeeld hiervan is het delen van gevoelige financiële informatie tussen banken. Door gebruik te maken van MPC kunnen meerdere banken gezamenlijk risicomodellen ontwikkelen en gebruiken zonder dat ze hun gevoelige informatie hoeven te delen. Dit stelt hen in staat om hun risico's te beheersen en hun klanten beter te bedienen zonder dat hun gegevens worden blootgesteld aan onnodige risico's.

Door wiskundetovenarij zijn de gegevens nog steeds bruikbaar voor analyses door meerdere partijen, maar vanuit het oogpunt van de ontvangede partijen volledig anoniem. Omdat de eigen datasets van partijen wel nog te herleiden zijn, is MPC op zichzelf geen anonimiseringstechniek. Wel is het een extreem krachtige pseudonimiseringstechniek; handig om aan te tonen dat je gegevens adequaat hebt beschermd in het geval van een datalek.

Synthetische data

Deze laatste techniek is een vrij nieuwe ontwikkeling en eentje die ik nauwlettend heb gevolgd. Surprise surprise, het is AI. Hoewel enige tijd geleden door het Hof van Justitie een klein achterdeurtje is opengezet, ben ik sterk van mening dat je nooit mag testen met productiedata. Dat is vragen om problemen. Waarom zouden mensen dan ooit testen met productiedata? Dat is simpel: representatieve testdata maken kan ontzettend duur zijn. Dan nemen veel bedrijven het risico op datalekken etc. maar voor lief. Voor dit probleem biedt synthetische data uitkomst. Deze techniek maakt gebruik van een AI die is getraind op originele data om zo vrijwel identieke (qua strekking) maar geheel anonieme gegevens te produceren.

Met synthetische data kunnen onderzoekers en analisten dus gegevens gebruiken zonder dat ze toegang hebben tot echte, gevoelige gegevens. De kunstmatig gegenereerde gegevens zijn zo ontworpen dat ze de echte gegevens nauwkeurig weerspiegelen vanuit statistisch oogpunt, maar zonder dat ze echte gegevens bevatten die de privacy van individuen in gevaar brengen. Deze techniek kan bijvoorbeeld worden gebruikt om gegevens over de gezondheid van patiënten te anonimiseren, zodat onderzoekers nog steeds toegang hebben tot belangrijke informatie zonder de privacy van individuele patiënten in gevaar te brengen.

Een groot voordeel van synthetische data is dat het relatief eenvoudig kan worden geproduceerd en dat het minder tijd en middelen kost dan andere technieken, zoals differentiële privacy of multi-party computation. Toch heeft ook deze techniek zijn nadelen. Het kan bijvoorbeeld net iets minder nauwkeurig kan zijn dan echte gegevens, vooral als de gegevens te complex zijn om nauwkeurig na te bootsen. Ook kan het soms lastig te controleren zijn of de synthetische gegevens ook echt representatief zijn voor de originele gegevens. Toch is van alle technieken die ik heb behandeld dit, zeker in combinatie met andere technieken, de meest kansrijke methode om tot echt anonieme gegevens te komen. Tenminste tot de nieuwste AI de synthetische data weet te ontcijferen…

Conclusie

Pseudonimiserings- en anonimiseringstechnieken zijn cruciaal om te voldoen aan de AVG en om de privacy van individuen te beschermen. Zoals we hebben gezien, zijn er verschillende technieken beschikbaar, variërend van eenvoudige methoden zoals data masking tot geavanceerde technieken zoals multi-party computation. In veel gevallen is het raadzaam om een combinatie van technieken toe te passen om de kans op heridentificatie zo klein mogelijk te maken en daardoor (proberen) anonimiteit en gegevensbescherming te borgen.