Hoe weet je of een AI-model goed is? Benchmarks
Cursussen › Cursus 6 · AI gebruiken
Als een nieuw AI-model wordt uitgebracht, verschijnen er direct scores op allerlei benchmarks: gestandaardiseerde testsets met vragen over wiskunde, redeneren, taalvaardigheid en meer. Die scores maken modellen vergelijkbaar — maar ze hebben ook serieuze beperkingen die je moet kennen.
Een model dat hoog scoort op een benchmark, is mogelijk specifiek geoptimaliseerd voor die test. En een score op meerkeuzevragen over academische kennis zegt weinig over hoe het model omgaat met jouw specifieke taak. In deze module leer je hoe benchmarks werken, wat ze meten en — even belangrijk — wat ze niet meten.
In deze module leer je
- Wat AI-benchmarks zijn en hoe ze worden gebruikt
- Welke bekende benchmarks er zijn en wat ze elk meten
- Waarom een hoge score op een benchmark geen garantie geeft voor praktische kwaliteit
- Hoe je zelf een model kunt beoordelen voor een specifieke toepassing
Veelgestelde vragen
Een benchmark is een gestandaardiseerde testset waarmee modellen worden beoordeeld en vergeleken. Bekende benchmarks zijn MMLU (brede kennis), HumanEval (code) en MATH (wiskunderedeneren).
MMLU (Massive Multitask Language Understanding) test een model op 57 vakgebieden — van wiskunde en wetenschap tot recht en geneeskunde — met meerkeuzevragen. Het geeft een breed beeld van kennisomvang, maar zegt weinig over creativiteit of praktisch redeneren.
Ja, indirect. Als trainingsdata tekst bevat die sterk lijkt op benchmarkvragen, scoort een model hoger zonder dat het echt beter is. Dat heet "benchmark contamination" en is een erkend probleem in de evaluatie van grote modellen.
Deze module zit in de cursus AI gebruiken. Module 1 van AILogica is gratis.
Meer uit deze cursus: Waarom werkt een goede prompt? · AI veilig en verantwoord gebruiken