Jailbreak — wat is het?

← AI-begrippenlijst

Jailbreak — Een jailbreak is een techniek waarbij een gebruiker via slimme prompts probeert de veiligheidsregels van een AI-model te omzeilen.

AI-modellen hebben ingebouwde guardrails die schadelijke uitvoer moeten voorkomen. Jailbreaks proberen die via omwegen te omzeilen: door het model in een rol te plaatsen, een verhaalcontext te schetsen of instructies op creatieve wijze te herformuleren. Model-ontwikkelaars lappen de gaten steeds bij; tegelijk blijven nieuwe jailbreak-methoden opduiken. Jailbreaks illustreren hoe lastig het is om alle ongewenste gedragingen van een taalmodel te blokkeren.

Verder lezen: AI veilig en verantwoord gebruiken

Bekijk de cursussen Lees module 1 gratis