Mixture of experts (MoE) — wat is het?
Mixture of experts (MoE) — Mixture of experts is een architectuur waarbij niet het hele model actief is per invoer, maar een selectie van gespecialiseerde subnetwerken.
Een MoE-model bestaat uit tientallen of honderden 'experts': kleinere subnetwerken die elk in een bepaald type invoer gespecialiseerd zijn. Een routeringslaag bepaalt voor elke invoer welke twee of drie experts worden geactiveerd. Zo heeft het model in totaal veel meer capaciteit dan een standaard model, terwijl de rekenkosten per inferentie beperkt blijven. Mixtral van Mistral is een bevestigd voorbeeld; van GPT-4 wordt MoE vermoed, maar OpenAI heeft dat nooit officieel bevestigd.
Verder lezen: Waarom groter slimmer werd