Hoe maakt AI afbeeldingen? Diffusion uitgelegd
Cursussen › Cursus 5 · AI voorbij tekst
Tools als Midjourney en DALL·E produceren fotorealistische afbeeldingen uit een tekstomschrijving. De techniek daarachter heet een diffusion model: het model leert tijdens training hoe echte afbeeldingen eruitzien door er stap voor stap ruis aan toe te voegen — en leert vervolgens dat proces omgekeerd: ruis terugbrengen naar een herkenbaar beeld.
Dat terugdraaien wordt gestuurd door een tekst-prompt: de omschrijving trekt het beeld als het ware in een bepaalde richting. Het resultaat is een afbeelding die nooit eerder bestond, maar er toch realistisch of stijlvol uitziet. In deze module leer je hoe dat basisprincipe werkt en wat het zegt over wat AI-beeldgeneratoren wel en niet kunnen.
In deze module leer je
- Wat een diffusion model is en hoe het ruis omzet naar een afbeelding
- Hoe een tekst-prompt het generatieproces stuurt
- Wat het verschil is tussen Midjourney, DALL·E en Stable Diffusion
- Waarom AI-beeldgeneratoren soms handen en tekst fout weergeven
Veelgestelde vragen
Een diffusion model begint met willekeurige ruis en verwijdert die stap voor stap, geleid door een tekst-prompt. Na tientallen tot honderden stappen ontstaat een afbeelding die overeenkomt met de omschrijving.
Beide gebruiken diffusion-technieken, maar zijn van verschillende bedrijven (Midjourney respectievelijk OpenAI) en zijn getraind op verschillende datasets met andere stijlkeuzes. Ze verschillen vooral in toegankelijkheid, stijl en controle over het resultaat.
Handen zijn complex en zeldzaam in combinatie met exacte vingerposities in trainingsdata. Het model genereert een statistische gemiddelde van wat een hand kan zijn — en dat leidt vaak tot extra vingers of vreemde vormen.
Deze module zit in de cursus AI voorbij tekst. Module 1 van AILogica is gratis.
Meer uit deze cursus: Multimodaliteit: tekst, beeld en geluid · Een korte geschiedenis van AI