Blog 06 March 2026
Data Web scraping
De datahonger van (met name grote tech)bedrijven is tegenwoordig geen geheim meer. Deze bedrijven verzamelen enorme hoeveelheden data van internetgebruikers om bijvoorbeeld profielen te maken, hun AI-toepassingen te trainen en data- en concurrentieanalyses uit te voeren. In dit drieluik aan blogs neem ik je mee in de legaliteit van web scraping, bezien vanuit privacy- intellectueel eigendoms- en contractrechtelijk perspectief. Dit eerste deel behandelt het wat, hoe en waarom van web scraping.

Langzamerhand lijkt er steeds meer maatschappelijke bewustwording te komen omtrent de datahonger van, voornamelijk, grote techbedrijven. Ook merk ik dat boeken zoals Je hebt wél iets te verbergen de risico’s van die oneindige dataverzameling steeds concreter weten te maken voor het grote publiek. Dat boek raad ik ten zeerste aan iedereen aan; het maakt goed duidelijk waarom privacy een uiterst belangrijk grondrecht is, haalt spannende situaties aan en leest makkelijk weg.

Een logische vervolgvraag die ik zelf regelmatig hoor, is: ‘Hoe verzamelen al die bedrijven eigenlijk mijn data’? Hoewel grote bedrijven daar allerlei methoden voor hebben, naast de informatie die jij direct zelf aan ze verschaft, gebeurt dat veelal aan de hand van web scraping. In deel 1 van deze blog leg ik uit wat web scraping inhoudt. In deel 2 en 3 licht ik toe hoe het staat met de legaliteit van web scraping. Ik bespreek de juridische obstakels en geef enkele aandachtspunten en inzichten over hoe ik denk dat web scraping juridisch verantwoord kan worden uitgevoerd.

Wat is web scraping?

Bij web scraping worden computerprogramma’s (ook wel: (ro)bots) ingezet die het hele geïndexeerde internet afstruinen om informatie binnen te harken. Of iets minder Brabants: om bruikbare data te extraheren. Dat gebeurt vaak op de hierna volgende manier.

Web crawler

Web crawlers – spinnen

Ten eerste worden web crawlers ingezet. Web crawlers, ook wel spiders genoemd omdat ze door het web kruipen, zijn digitale bots die geautomatiseerd het internet doorzoeken. Deze bots worden tegenwoordig vaak door middel van artificial intelligence (hierna: AI) aangestuurd, maar kunnen ook nog klassieke programma’s zijn. Ze werken door links te volgen van pagina naar pagina en van website naar website. Voor de academici onder ons: dit is een vorm van de sneeuwbalmethode voor onderzoek.

Nadat een web crawler pagina’s en websites heeft bezocht, slaat het deze op in een database voor verder gebruik; indexering. Wellicht het bekendste voorbeeld van verder gebruik is zoekmachines. Bedrijven zoals Google, Microsoft en Baidu zetten hun eigen spiders, resp. Googlebot, Bingbot en Baiduspider, in om hun zoekmachine te vullen. Vindt de bot een website? Dan wordt die toegevoegd aan de zoekresultaten, tenzij een bepaald bestand is opgenomen met andere instructies.

Dat bestand ben je wellicht zelf weleens tegengekomen in zoekresultaten, en heet robots.txt. Robots.txt bevat instructies voor crawlers over hoe ze om dienen te gaan met een website. Zo kan worden opgenomen dat crawlers bepaalde pagina's of gehele websites niet mogen crawlen. Dit voorkomt niet dat een URL volledig voor zoekmachines wordt verborgen. Om dat te bereiken, gebruiken developers de

Belangrijk om op te merken is dat robots.txt slechts een ‘suggestie’ is voor web crawlers. Dat betekent dat sommige bots het bestand deels of zelfs geheel negeren. Daarover schrijf ik meer in deel 3 van deze blog.

Web scrapers

Web scrapers – oogsters

Waar crawlers doorgaans worden gezien als spinnen die zich een weg door het web banen, zie ik scrapers als de digitale oogsters van data. Nadat de crawlers websites en -pagina’s hebben geïndexeerd en opgeslagen in een database, zijn de scrapers aan zet. Hoewel web scraping handmatig gedaan kan worden door teksten van websites te kopiëren, gebeurt dat in de praktijk vrijwel altijd geautomatiseerd. Daarom is hier wederom sprake van een computerprogramma, al dan niet een AI, dat bepaalde taken uitvoert.

Die taak is het doorzoeken van websites en het extraheren van relevante data. Door middel van bepaalde regels en patronen kunnen web scrapers de relevante gegevens van pagina's filteren en deze in een gestructureerd formaat opslaan, zoals een CSV-bestand of een database. Dat filteren gebeurt bijvoorbeeld door de HTML-code is simpelweg de voor machines leesbare vorm waarin websites worden gemaakt. Je browser leest die code wanneer je een website bezoekt en geeft deze weer op een manier die voor mensen makkelijk te begrijpen is.van een website te doorzoeken op bepaalde tags of attributen.

Tegenwoordig zijn er steeds geavanceerdere scrapers in omloop, niet in de laatste plaats door de ontwikkelingen op het gebied van AI. Waar de relatief eenvoudige HTML-scrapers nog goed tegen te houden zijn met technieken als robots.txt, CAPTCHA en anti-botprogramma’s, is dat bij geavanceerdere bots steeds lastiger. Zo kunnen de nieuwste scrapers die tegenmaatregelen omzeilen, dynamisch gegenereerde inhoud herkennen en patronen op websites zien waardoor de juiste informatie kan worden geëxtraheerd. Daardoor is het niet meer nodig de HTML-code te doorzoeken en kan ook informatie uit afbeeldingen worden gehaald.

Inmiddels zijn er zelfs scrapers die informatie uit het en kunnen halen. Let wel, dit is niet zo spannend als het klinkt. Het deep web refereert eenvoudigweg naar het deel van het internet dat nog niet door bots is geïndexeerd. Bij het notoire dark web gaat het om een deel van het deep web dat is ontworpen om anoniem te blijven en is niet toegankelijk via reguliere webbrowsers. 

Ondanks dat er geen tekort aan schimmige praktijken op het dark web te vinden is, zijn de termen deep en, met name, dark web vaak gehuld in een sluier van mythen en misverstanden. Over de misverstanden en fabeltjes omtrent het dark web schrijf ik ongetwijfeld een keer een blog. De reden dat ik het scrapen van het deep en dark web hier expliciet benoem, is om te illustreren hoe goed de scrapers tegenwoordig zijn. Ze kunnen dus niet-geïndexeerde websites (deep) en soms zelfs websites die zich actief proberen te verhullen (dark) scrapen. En dat via de simpele aanschaf van scrapers die door ontwikkelaars worden aangeboden.

Analyses en gevaar

Oké, een bedrijf heeft zijn spinnen losgelaten op het web en de gevonden data geoogst, wat nu? Nu kom ik op het punt dat ik het probleem aankaart. Door middel van web scraping kunnen enorme hoeveelheden data van het web worden verzameld, waaronder van sociale-mediaprofielen. Daardoor kan een bedrijf achterhalen wat je interesses zijn, welke nationaliteit je hebt, welk emailadres je gebruikt, het telefoonnummer dat je hebt, waar je woont etc. 

Vervolgens kunnen die gegevens in een andere AI worden gestopt en patronen en verbanden gezocht. Ook kunnen profielen worden opgesteld van personen. Daarmee kunnen advertenties worden getoond die zo gericht zijn, dat mensen vaak onjuist denken dat ze via hun telefoon worden afgeluisterd. Wat mijns inziens een veel engere realiteit is, is dat er zoveel data over je wordt verzameld dat een computer je gedrag regelmatig accuraat weet te voorspellen.

Afronding

Ondanks het hiervoor geschetste beeld kan verzamelde data natuurlijk ook voor nuttige zaken worden gebruikt, zoals bedrijfsanalyses, concurrentieanalyses, prijsvergelijkingen en onderzoek; dat staat buiten kijf. Toch zijn de gevaren van verkeerde verbanden en misbruik van data (discriminatie, privacyschendingen, verlies van autonomie etc.) dusdanig dat voorzichtigheid betracht moet worden met web scraping en data-analyse. Ik schrijf later meer over de potentiële valkuilen en gevaren van onverantwoord AI-gebruik

Een belangrijke pijler hierin is de vraag of data überhaupt gescrapet mag worden. Immers, als data (in bepaalde gevallen) niet mag worden verzameld, kom je in theorie al niet toe aan de kwestie van verantwoorde analyses. In theorie… We weten hoeveel menig tech-behemoth zich van regulering aantrekt als het businessmodel daardoor in gevaar komt. Daarom behandel ik in deel 2 de legaliteit van web scraping vanuit privacyrechtelijk perspectief. In deel 3 doe ik hetzelfde vanuit intellectueel eigendoms- en contractrechtelijk perspectief.