Dataset — wat is het?
Dataset — Een dataset is een verzameling gestructureerde of ongestructureerde gegevens waarop een AI-model wordt getraind, getest of geëvalueerd.
De kwaliteit en diversiteit van een dataset bepalen in grote mate wat een model leert — en welke blinde vlekken het heeft. Grote taalmodellen worden getraind op datasets van honderden miljarden woorden, samengesteld uit boeken, websites en andere tekstbronnen. Wie de dataset beheert, heeft invloed op het gedrag van het model. Kleine of eenzijdige datasets leiden tot modellen die slecht generaliseren.
Verder lezen: Klassieke machine learning vs. deep learning