Reinforcement learning — wat is het?
Reinforcement learning — Reinforcement learning is een leermethode waarbij een AI-agent leert door acties uit te voeren en beloningen of straffen te ontvangen.
In plaats van gelabelde voorbeelden leert het model door te doen: het kiest een actie, ziet het resultaat, en past zijn strategie aan op basis van of het beloond of gestraft werd. Dit werkt goed voor spelomgevingen (schaak, Go, videogames) en ook voor het bijsturen van taalmodellen via menselijke beoordelingen (RLHF). De uitdaging is het ontwerpen van een beloningsfunctie die daadwerkelijk het gewenste gedrag stuurt.
Verder lezen: Reinforcement learning: leren met beloning