Iedereen heeft wel eens van de artificial intelligence ChatGPT gehoord, een indrukwekkend large language model dat in staat is om menselijke taal te begrijpen en na te bootsen. Maar wat is nou eigenlijk een large language model? En hoe worden deze modellen getraind? In deze blog leg ik dit uit, waarbij ik met name inga op de gevaarlijke feedbackloop van slechte trainingsdata. Lees verder om meer te weten te komen over deze fascinerende technologie en de uitdagingen die ermee gepaard gaan.
Voeg je header hier toe
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, Some text goes here pulvinar dapibus leo.
Om te begrijpen waar het onderwerp van deze blog over gaat, de feedbackloop van slechte data, is het van belang verder toe te lichten hoe LLM’s worden getraind. Ten eerste wordt een grote set aan tekstdata verzameld. Die dataset bevat gegevens die afkomstig zijn uit bronnen zoals boeken, artikelen, blogs en social media-posts. Vervolgens wordt het model getraind aan de hand van die data. Bron: Some text goes here