Tijdens mijn werkzaamheden ben ik weleens in aanraking gekomen met (grote) web scraping-partijen. Daarover gaf ik tegen collega’s gekscherend aan dat de privacy officers en functionarissen gegevensbescherming van die partijen hun roeping in sales hebben gemist. Wanneer je web scraping van die omvang weet te verantwoorden met een verhaal waarbij niet direct aan je geestelijke gezondheid wordt getwijfeld, heb ik daar serieus respect voor. Als je dat lukt, kun je nog water aan een vis verkopen.
AVG: de onontkoombare datakolos
Als we het hebben over gegevensbescherming, hebben we het over de Algemene verordening gegevensbescherming (hierna: AVG). Deze Europese verordening is op 24 mei 2016 in het leven geroepen om, onder andere, Zie overweging 1 en art. 1 lid 1 en 2 AVG. Maar, wat vaak vergeten wordt, is dat de AVG ook ten doel heeft om Zie overweging 2 AVG. Daarnaast wordt het Zie overweging 3 (gaat over de voorloper van de AVG maar ook hier van toepassing) en artikel 1 lid 1 en 3 AVGexpliciet benoemd. Het is dus helemaal niet zo dat het verwerken van persoonsgegevens wordt ontmoedigd; enkel dat de verwerkingen rechtmatig, transparant, proportioneel, etc. zijn.
Wanneer persoonsgegevens worden verwerkt, Let wel, dit is simplistisch weergeven. Aan het toepassingsbereik zijn andere vereisten verbonden. Zie daarvoor art. 2 en 3 AVG. Vaak wordt gedacht dat persoonsgegevens enkel zien op gegevens die iemand direct identificeren. Het klopt dat gegevens zoals een naam of Burgerservicenummer persoonsgegevens zijn, maar ook indirect identificerende gegevens zijn persoonsgegevens.
Hierbij is het van belang of gegevens, al dan niet gecombineerd, tot één persoon kunnen leiden. Dus, personeelsnummers, woonadres, voedselallergie, gezondheidsgegevens en haarkleur kunnen allemaal persoonsgegevens zijn, afhankelijk van de context. Hoewel hier altijd mitsen en maren aan zitten, is het voor nu voldoende om te weten dat ontzettend veel gegevens persoonsgegevens zijn. En, persoonsgegevens = toepassing AVG. Je kunt je dus voorstellen dat veel data op het internet persoonsgegevens bevat. Data die door web scrapers binnen wordt gehaald.
[caption id="attachment_12689" align="aligncenter" width="400"] Vogelvrij?Publieke data = vogelvrij?
Een grote misvatting die ik regelmatig tegenkom, is dat openbare informatie niet beschermd wordt (door de AVG). “Je hebt het zelf openbaar gemaakt dus mag iedereen het naar eigen goeddunken gebruiken.” Dat is onjuist. Mijn vermoeden is dat dit komt door wat grote Amerikaanse partijen rond bazuinen. In de Verenigde Staten van Amerika (hierna: VS) is namelijk wel – op federaal niveau – de heersende opvatting dat openbare informatie weinig tot geen privacy(rechtelijke bescherming) geniet. Altijd wat met die Amerikanen. Zoals ze het zelf verwoorden, heb je wat die informatie betreft: “No reasonable expectation of privacy.” Dat is bijvoorbeeld bevestigd in Bron: United States v. Meregildo, 883 F. Supp. 2d 523 (S.D.N.Y. 2012)
United States v. Meregildo is een Amerikaanse rechtszaak waarin de vraag aan de orde kwam of de politie zonder huiszoekingsbevel het Facebookprofiel van een verdachte mocht inzien. Dat de vraag om een huiszoekingsbevel draaide, komt doordat het Het Fourth Amendment in de Amerikaanse grondwet biedt, zoals door rechtspraak uitgelegd, bescherming tegen onredelijke doorzoekingen (van onder andere huizen) en inbeslagnemingen door de overheid. Dit grondrecht biedt dus voornamelijk bescherming tegen overheidsinmenging en heeft geen expliciete bepalingen voor gegevensbescherming en privacy. Daarom komt dit het meest in de buurt van de privacygerelateerde grondrechten die we in de EU kennen, maar kun je niet stellen dat het een volwaardig equivalent is. het enige grondrecht is dat in de buurt komt van privacybescherming. In het kort had de politie in deze zaak een Facebookvriend van de verdachte benaderd, waarna deze vriend vrijwillig toegang tot zijn Facebookaccount aan de politie gaf. Doordat de verdachte zijn privacyinstellingen op 'Alleen vrienden mogen mijn profiel bekijken' had ingesteld, was zijn profiel niet openbaar toegankelijk. Nu de politie toegang had tot het account van een vriend, kon zij het profiel van de verdachte wel bekijken. Who needs enemies when you have friends like this?
Toen rees de vraag: mag dit? Het antwoord luidde: natuurlijk joh, ga lekker je gang. Wellicht dat de rechter het net ietsje anders verwoordde. Anders gezegd, omdat de verdachte veel vrienden (wat is veel?) had, werd zijn profiel geacht openbaar te zijn, ondanks de afscherming van zijn profiel voor het publiek. Hij had geen redelijke verwachting van privacy en de politie mocht het profiel zonder huiszoekingsbevel bekijken en als bewijs gebruiken, zo luidde het oordeel.
Als je het mij vraagt is het een rare redenering dat je profiel wordt geacht openbaar te zijn wanneer 'veel' mensen toegang daartoe hebben.
Mag de politie ook je huis binnenkomen als je veel gasten op een huisfeest hebt? Dit staat nog los van het feit dat ook openbare profielen bescherming zouden moeten genieten. Maar goed, ik ben dan ook geen Amerikaanse rechter. Wat deze zaak duidelijk maakt is dat openbare (en zelfs dat is dus niet vereist blijkens de uitspraak) informatie in de VS wel fair game (vanuit privacyrechtelijk perspectief) is. Mogelijk dat daar dus ook de misvatting vandaan komt.
Dan terug naar de EU. Naast het feit dat publieke informatie ‘gewoon’ onder privacywetgeving valt in de EU, is de AVG (een gegevensbeschermingswet, kleine nuance met soms grote verschillen) ook van toepassing. Voor de AVG maakt het namelijk niets uit of je gegevens al dan niet openbaar hebt gedeeld. Het is hooguit relevant om de mate van passende beveiligingsmaatregelen (art. 32 lid 1 AVG) vast te stellen. Daar is het beruchte bedrijf Clearview AI (hierna: Clearview) inmiddels ook achtergekomen.
Clearview AI, een notoir praktijkvoorbeeld
Ik wilde in deze blog eerst puntsgewijs toelichten waar web scraping wringt met de AVG, maar ik denk dat de meeste punten het best toegelicht kunnen worden aan de hand van een praktische casus. Die casus betreft Clearview AI.
In het kort: Clearview is een Amerikaans bedrijf dat gezichtsherkenningstechnologie heeft ontwikkeld. Hoewel die technologie doorgaans al de nodige controverse veroorzaakt, doet het bedrijf daar nog een schepje bovenop. Volgens zijn Bron: Clearview AI company overview is Clearview: “…dedicated to innovating and providing the most cutting-edge technology to law enforcement to investigate crimes, enhance public safety and provide justice to victims.”
In andere woorden, Clearview verkoopt zijn technologie aan instanties als politie- en veiligheidsdiensten om verdachten van misdrijven op te sporen en identificeren. Op zich is dat een nobel streven, maar de wijze waarop het bedrijf dat doet is, in mijn nederige opinie, te bizar voor woorden. Iets met een dystopische toekomst.
Het bedrijf claimt namelijk de grootste database met gezichtsfoto’s ter wereld te hebben; de foto’s zijn allemaal via web scraping uit openbare bronnen als social media verkregen. Ten tijde van dit schrijven zouden ze over Bron: Introducing Clearview AI 2.0 . Je kunt je voorstellen dat alleen al door massaliteit van de verwerkingen allerlei juridische alarmen afgaan.
Zijstap: de mythe van unbiased AI
Overigens wil ik als klein zijstapje benoemen dat Clearview claimt dat zijn systeem ‘bias-free’ en ‘unbiased’ is. Dat is lachwekkend. Ik ben van mening dat een AI-systeem nooit zonder Bias, dat zoiets als vooroordeel of vooringenomenheid betekent in het Nederlands, verwijst naar onbedoelde vertekeningen in de ontwikkeling, training en implementatie van AI. Dit kan leiden tot oneerlijke of onnauwkeurige resultaten in de besluitvorming van het systeem.kan zijn. Je kan bias hooguit detecteren en mitigeren of detecteren en uitleggen waar de bias optreedt zodat er rekening mee kan worden gehouden. Hier ga ik ongetwijfeld nog een uitgebreide blog aan wijden, maar je kunt alvast een stuk in een Bron: Garbage in, garbage out: de feedback-loop van slechte trainingsdata lezen. Goed om te weten is dat mijn opvatting niet uit de lucht is gegrepen maar door Bron: Leufer, D., Steinbrück, A., Liptakova, Z., Mueller, K., & Jang, R. (n.d.). Myth: AI can be objective/unbiased. AI Myths. Geraapleegd op 18 maart 2023, van https://www.aimyths.org/ai-can-be-objective-or-unbiased tal van AI-experts wordt bevestigd.
Clearview en de AVG
Terug naar de AVG. Naast de gigantische omvang de database (dataminimalisatie en noodzaak, anyone?), schort het m.i. met name aan twee andere AVG-aspecten: de informatieplicht en grondslag. In de AVG is een plicht opgenomen om betrokkenen (degenen wiens gegevens worden verwerkt) te informeren over de verwerking van hun gegevens.
Daarnaast is in artikel 14 de verplichting opgenomen om betrokkenen te informeren wanneer je hun gegevens niet rechtstreeks hebt verkregen. Daarin staan zaken als wie degene in die hun gegevens verwerkt, waarvoor de gegevens worden verwerkt en wat de rechtsgrond voor de verwerking – de grondslag – is. De gedachte hierachter is simpel: je moet weten wie überhaupt jouw gegevens verwerken voordat je je rechten uit kunt oefenen. Het wordt vrij lastig om te verzoeken de verwerking te stoppen, als je niet weet wie jouw gegevens verwerkt.
Iets met een informatieplicht
Hier wordt het probleem evident. Clearview verkrijgt al zijn gezichtsfoto’s uit bronnen als social media, nieuwssites en de in Amerika publiekelijk toegankelijke mugshot-websites. Ik ben niet eens meer verbaasd. Zijn streven is om uiteindelijk gezichtsfoto’s van alle mensen ter wereld in zijn systeem te hebben.
Het lijkt mij bijzonder onwaarschijnlijk dat op den duur 8 miljard personen een vriendelijk berichtje van het bedrijf krijgen met daarin alle informatie, inclusief het recht om je gegevens uit de database te laten wissen, die de AVG vereist. Te meer omdat Clearview AI tot op heden nog geen enkele betrokkene heeft geïnformeerd over zijn dataverzameling.
Grondslag? Is dat een geologisch begrip?
Naast het feit dat Clearview betrokkenen niet informeert, ontbreekt de grondslag voor de verwerking. Kort gezegd is een grondslag een juridische basis waar je de gegevensverwerking op baseert. Geen grondslag = geen verwerking (toegestaan). Zonder te diep hierop in te gaan, zie ik twee mogelijkheden voor Clearview: toestemming en het gerechtvaardigd belang.
Gerechtvaardigd belang
Het gerechtvaardigd belang (art. 6 lid 1 sub f AVG) houdt in dat bedrijven gegevens mogen verwerken indien zij een gerechtvaardigd belang hebben. Ook moet de verwerking noodzakelijk zijn om dat belang te bereiken en het belang van het bedrijf moet zwaarder wegen dan dat van de betrokkene(n). Simpel gezegd moet je een goede reden hebben om de gegevens te verwerken en niet over de rechten van anderen heen walsen.
In het geval van Clearview, is het belang het opsporen van verdachten. Dat is een prima streven, maar je hebt ook rekening te houden met rechten van anderen. Daarbij moet je rekening houden met (daar is ie weer) de redelijk verwachting van privacy van betrokkenen (zie ook overweging 47 AVG).
Verwacht jij in een enorme database ter opsporing van misdadigers te komen wanneer je je profielfoto naar LinkedIn uploadt? Ik denk dat in het overgrote deel van de gevallen mensen dat niet verwachten. Dat, gepaard met het feit dat betrokkenen ook niet (achteraf) worden geïnformeerd, is al genoeg om je niet op het gerechtvaardigd belang te kunnen baseren. Hiermee zeg ik niet dat web scraping niet op gerechtvaardigd belang kan worden gebaseerd, maar wel dat je een sterk, overtuigend verhaal moet hebben om dat te doen.
Toestemming
Dan zou toestemming resteren. Ook al zou Clearview van iedereen toestemming willen verkrijgen, wat het niet wil blijkens zijn opvatting dat openbaar gedeelde data vogelvrij is verklaard, dan is het een haast onmogelijke klus dat van x aantal miljard personen verspreid over x aantal websites te krijgen. Publieke data = vogelvrij, waar heb ik dat eerder gehoord… Dat betekent dat, nu ik tot op heden geen zinnig argument voor het gerechtvaardigd belang heb gezien en toestemming praktisch onmogelijk is, Clearview geen grondslag heeft om te verwerken.
Bovenstaande conclusies worden gedeeld door meerdere gegevensbeschermingstoezichthouders in de EU. Zo hebben de
Bron: Facial recognition: Italian SA fines Clearview AI EUR 20 million
,
Bron: Facial recognition: 20 million euros penalty against CLEARVIEW AI
en
Bron: Hellenic DPA fines Clearview AI 20 million euros
al bevolen dat alle foto’s van Italiaanse/Franse/Griekse burgers uit Clearviews database Hier heb ik mij beperkt tot toezichthouders EU-lidstaten. Inmiddels hebben de Canadese, Australische en Britse toezichthouders ook al maatregelen met die strekking opgelegd. Die maatregel, naast hoge boetes, zie ik in de toekomst ook wel door andere toezichthouders worden genomen. Dit geeft aan dat web scraping, zeker indien het op grote schaal gebeurt, onder een vergrootglas ligt (zie bijvoorbeeld
Bron: AI Act: EU Parliament’s discussions heat up over facial recognition, scope
Daarom is het des te belangrijker dat je een juridisch sterk, of tenminste voldoende overtuigend, verhaal hebt indien je je aan web scraping waagt waarbij persoonsgegevens worden opgehaald.
Samenvattend: de (on)mogelijkheden
Hierboven heb ik de casus van Clearview uitgebreid behandeld. Ik gaf aan dat Clearview met name problematisch is doordat het geen grondslag heeft en niet voldoet aan de informatieplicht. Dat zijn de grootste problemen, maar er zijn ook genoeg bezwaren omtrent zaken als dataminimalisatie, transparantie, noodzaak en proportionaliteit.
Toch kan het argument worden gemaakt: “maar Steven, dit is toch een extreem voorbeeld? Het gaat om de grootste verzamelaar van gezichtsfoto’s ter wereld die zijn product aan handhavingsinstanties verkoopt. Het gaat hier niet om informatie als interesses van mensen, waar ze hebben geluncht of wat hun lievelingskleur is.” Dat klopt, en er is zeker wat te zeggen over de toelaatbaarheid van minder verregaande web scraping.
De reden dat ik Clearview heb toegelicht, is omdat het de potentiële privacyrechtelijke problemen van iedere vorm van web scraping (waarbij persoonsgegevens worden verzameld) uitvergroot laat zien. Zo dient iedere vorm van web scraping op een of andere manier te voldoen aan de informatieplicht. Ook heb je nou eenmaal een grondslag voor de verwerking nodig. Die grondslag hoeft niet eens toestemming te zijn. Misschien dat er wel ergens een slimme privacy officer bij een bedrijf werkt die wel een goed verhaal heeft om het gerechtvaardigd belang te gebruiken.
Deze blog laat zien dat het mogelijk is om vanuit privacyrechtelijk perspectief het web te scrapen, maar dat de nodige juridische hordes moeten worden genomen. Dat hier aandacht voor is, is des te belangrijker nu bedrijven als OpenAI steeds populairder worden.
Door de hype rondom ChatGPT wordt vaak vergeten dat ook zo een soort bedrijf, dat zich in eerste instantie enkel als onderzoeksinstantie profileerde, zich aan de wet moet houden. Daarom schrijf ik deze blogs; zonder bewustwording, geen keuze.
Vervolg
In het volgende en laatste deel van dit drieluik licht ik mogelijke intellectueel eigendoms- en contractrechtelijke obstakels toe. Daarnaast, om niet enkel kommer en kwel te propageren, geef ik enkele aandachtspunten en inzichten over hoe ik denk dat je web scraping wel juridisch verantwoord kunt uitvoeren.