Benchmark — wat is het?

← AI-begrippenlijst

Benchmark — Een benchmark is een gestandaardiseerde test waarmee AI-modellen worden vergeleken op kennis, redeneren of andere vaardigheden.

Benchmarks zoals MMLU of HumanEval bestaan uit duizenden vragen of taken met bekende antwoorden. Door modellen op dezelfde test te beoordelen, zijn scores vergelijkbaar over tijd en tussen aanbieders. Het probleem: modellen worden soms indirect getraind op benchmarkdata, waardoor de score de werkelijke bruikbaarheid overschat. Benchmarkscores zijn nuttige richtingen, maar nooit het hele verhaal.

Verder lezen: Hoe weet je of een model goed is?

Bekijk de cursussen Lees module 1 gratis