Tokenisatie — wat is het?

← AI-begrippenlijst

Tokenisatie — Tokenisatie is het proces waarbij tekst wordt opgesplitst in tokens — de bouwstenen die een taalmodel daadwerkelijk verwerkt.

Voordat een model tekst kan verwerken, zet een tokenizer die om in een reeks gehele getallen, elk corresponderend met een stukje tekst. Hoe die splitsing verloopt verschilt per model en per taal: Nederlandstalige tekst kost vaak meer tokens dan Engelstalige tekst van vergelijkbare lengte. Ongebruikelijke woorden worden opgesplitst in meerdere subtokens. Begrip van tokenisatie helpt bij kostenbeheer en het verklaren van vreemde modelgedragingen.

Verder lezen: Tokens en het contextvenster

Bekijk de cursussen Lees module 1 gratis