Wat is reinforcement learning? Leren door beloning
Cursussen › Cursus 8 · AI om je heen
Reinforcement learning (RL) is een leerstrategie waarbij een agent leert door in een omgeving acties te ondernemen en feedback te ontvangen: een beloning als het goed gaat, een straf als het fout gaat. Er zijn geen gelabelde voorbeelden nodig — het systeem ontdekt zelf welke strategie het meeste oplevert.
RL ligt aan de basis van indrukwekkende doorbraken: AlphaGo versloeg de wereldkampioen Go, robotarmen leerden grijpen zonder menselijke programmering, en RLHF — een variant van RL — is de techniek die van een ruwe GPT een behulpzame assistent maakt. In deze module leer je hoe het principe werkt en welke uitdagingen RL met zich meebrengt.
In deze module leer je
- Wat de basiscomponenten van reinforcement learning zijn: agent, omgeving, beloning
- Hoe een agent leert door trial-and-error zonder vooraf gelabelde data
- Welke bekende doorbraken er zijn met reinforcement learning
- Wat de verbinding is tussen RL en de training van grote taalmodellen (RLHF)
Veelgestelde vragen
Reinforcement learning is een manier om AI te trainen waarbij een agent acties onderneemt in een omgeving en leert van de beloningen en straffen die hij ontvangt. Het doel is een strategie te ontwikkelen die op de lange termijn de meeste beloning oplevert.
AlphaGo leerde eerst van menselijke speldata, en verfijnde zijn strategie daarna door miljoenen potjes tegen zichzelf te spelen. Elke overwinning was een beloning; verlies een signaal om de strategie bij te stellen.
RLHF (Reinforcement Learning from Human Feedback) past RL toe op taalmodellen: menselijke beoordelaars geven aan welke antwoorden beter zijn, en die beoordelingen worden gebruikt als beloningssignaal om het model verder te trainen.
Deze module zit in de cursus AI om je heen. Module 1 van AILogica is gratis.
Meer uit deze cursus: Computer vision: hoe AI leert kijken · Spraak: hoe AI luistert en praat · Aanbevelingssystemen: waarom je dít ziet