RLHF — wat is het?

← AI-begrippenlijst

RLHF — RLHF (Reinforcement Learning from Human Feedback) is de techniek waarmee taalmodellen worden bijgestuurd op basis van menselijke voorkeuren.

Na de basistaining wordt het model aan echte mensen voorgelegd: beoordelaars vergelijken antwoorden en kiezen welke beter is. Van die voorkeursoordelen leert een tweede model een "beloningsfunctie", en daarmee wordt het taalmodel verder getraind. RLHF is een van de voornaamste redenen waarom ChatGPT minder gevaarlijke of nutteloze antwoorden geeft dan een puur voorgetraind model. Het proces is tijdrovend en de kwaliteit hangt sterk af van de beoordelaars.

Verder lezen: Van GPT naar ChatGPT

Bekijk de cursussen Lees module 1 gratis