AI-alignment — wat is het?

← AI-begrippenlijst

AI-alignment — Alignment is het onderzoeksveld dat zich bezighoudt met de vraag hoe je AI-systemen kunt bouwen die doen wat mensen echt bedoelen en bedoeld hebben.

Een AI die een doel optimaliseert kan dat op onverwachte manieren doen die technisch correct zijn maar menselijk gezien problematisch. Alignment probeert dat gat te dichten: hoe specificeer je menselijke waarden op een manier die een machine begrijpt, ook in situaties die de makers niet hadden voorzien? RLHF is een praktische alignment-techniek; alignment-onderzoek gaat verder en kijkt naar veiliger en robuuster gedrag bij krachtigere systemen.

Verder lezen: AI-veiligheid, alignment en de AGI-vraag

Bekijk de cursussen Lees module 1 gratis