Jailbreak — wat is het?
Jailbreak — Een jailbreak is een techniek waarbij een gebruiker via slimme prompts probeert de veiligheidsregels van een AI-model te omzeilen.
AI-modellen hebben ingebouwde guardrails die schadelijke uitvoer moeten voorkomen. Jailbreaks proberen die via omwegen te omzeilen: door het model in een rol te plaatsen, een verhaalcontext te schetsen of instructies op creatieve wijze te herformuleren. Model-ontwikkelaars lappen de gaten steeds bij; tegelijk blijven nieuwe jailbreak-methoden opduiken. Jailbreaks illustreren hoe lastig het is om alle ongewenste gedragingen van een taalmodel te blokkeren.
Verder lezen: AI veilig en verantwoord gebruiken