Hoe weet je of een AI-model goed is? Benchmarks

CursussenCursus 6 · AI gebruiken

Als een nieuw AI-model wordt uitgebracht, verschijnen er direct scores op allerlei benchmarks: gestandaardiseerde testsets met vragen over wiskunde, redeneren, taalvaardigheid en meer. Die scores maken modellen vergelijkbaar — maar ze hebben ook serieuze beperkingen die je moet kennen.

Een model dat hoog scoort op een benchmark, is mogelijk specifiek geoptimaliseerd voor die test. En een score op meerkeuzevragen over academische kennis zegt weinig over hoe het model omgaat met jouw specifieke taak. In deze module leer je hoe benchmarks werken, wat ze meten en — even belangrijk — wat ze niet meten.

In deze module leer je

Onderdeel van AI gebruiken · vanaf €39 Volg deze les →

Veelgestelde vragen

Wat is een AI-benchmark?

Een benchmark is een gestandaardiseerde testset waarmee modellen worden beoordeeld en vergeleken. Bekende benchmarks zijn MMLU (brede kennis), HumanEval (code) en MATH (wiskunderedeneren).

Wat meet de MMLU-benchmark?

MMLU (Massive Multitask Language Understanding) test een model op 57 vakgebieden — van wiskunde en wetenschap tot recht en geneeskunde — met meerkeuzevragen. Het geeft een breed beeld van kennisomvang, maar zegt weinig over creativiteit of praktisch redeneren.

Kan een model valsspelen op benchmarks?

Ja, indirect. Als trainingsdata tekst bevat die sterk lijkt op benchmarkvragen, scoort een model hoger zonder dat het echt beter is. Dat heet "benchmark contamination" en is een erkend probleem in de evaluatie van grote modellen.

Wil je dit écht snappen?
Deze module zit in de cursus AI gebruiken. Module 1 van AILogica is gratis.
Bekijk de cursussen

Meer uit deze cursus: Waarom werkt een goede prompt? · AI veilig en verantwoord gebruiken