Red-teaming — wat is het?

← AI-begrippenlijst

Red-teaming — Red-teaming is het systematisch proberen een AI-systeem te misleiden of te laten falen, om zwakke plekken te vinden voordat kwaadwillenden dat doen.

De term komt uit de militaire wereld waar een 'rood team' de vijand speelt. Bij AI red-teaming probeert een team van testers het model schadelijke of verboden uitvoer te laten produceren via creatieve prompts en scenario's. De bevindingen worden gebruikt om het model te verbeteren en guardrails aan te scherpen. Grote AI-labs doen intern aan red-teaming en betrekken soms externe experts voor bredere dekking.

Verder lezen: AI-veiligheid, alignment en de AGI-vraag

Bekijk de cursussen Lees module 1 gratis