Wat is reinforcement learning? Leren door beloning

Cursussen › Cursus 8 · AI om je heen

Reinforcement learning (RL) is een leerstrategie waarbij een agent leert door in een omgeving acties te ondernemen en feedback te ontvangen: een beloning als het goed gaat, een straf als het fout gaat. Er zijn geen gelabelde voorbeelden nodig — het systeem ontdekt zelf welke strategie het meeste oplevert.

RL ligt aan de basis van indrukwekkende doorbraken: AlphaGo versloeg de wereldkampioen Go, robotarmen leerden grijpen zonder menselijke programmering, en RLHF — een variant van RL — is de techniek die van een ruwe GPT een behulpzame assistent maakt. In deze module leer je hoe het principe werkt en welke uitdagingen RL met zich meebrengt.

In deze module leer je

Wat de basiscomponenten van reinforcement learning zijn: agent, omgeving, beloning
Hoe een agent leert door trial-and-error zonder vooraf gelabelde data
Welke bekende doorbraken er zijn met reinforcement learning
Wat de verbinding is tussen RL en de training van grote taalmodellen (RLHF)

Onderdeel van AI om je heen · vanaf €39 Volg deze les →

Veelgestelde vragen

Wat is reinforcement learning?

Reinforcement learning is een manier om AI te trainen waarbij een agent acties onderneemt in een omgeving en leert van de beloningen en straffen die hij ontvangt. Het doel is een strategie te ontwikkelen die op de lange termijn de meeste beloning oplevert.

Hoe leerde AlphaGo Go spelen via reinforcement learning?

AlphaGo leerde eerst van menselijke speldata, en verfijnde zijn strategie daarna door miljoenen potjes tegen zichzelf te spelen. Elke overwinning was een beloning; verlies een signaal om de strategie bij te stellen.

Wat is RLHF en wat heeft het met reinforcement learning te maken?

RLHF (Reinforcement Learning from Human Feedback) past RL toe op taalmodellen: menselijke beoordelaars geven aan welke antwoorden beter zijn, en die beoordelingen worden gebruikt als beloningssignaal om het model verder te trainen.

Wil je dit écht snappen?
Deze module zit in de cursus AI om je heen. Module 1 van AILogica is gratis.

Bekijk de cursussen

Meer uit deze cursus: Computer vision: hoe AI leert kijken · Spraak: hoe AI luistert en praat · Aanbevelingssystemen: waarom je dít ziet