Wat is multimodale AI? Tekst, beeld en geluid
Cursussen › Cursus 5 · AI voorbij tekst
Multimodale AI verwerkt meer dan één soort invoer tegelijk: tekst, afbeeldingen, audio of video. Waar eerdere modellen één ding konden — tekst begrijpen óf een foto beschrijven — verwerkt een multimodaal model die signalen samen in dezelfde architectuur. Dat maakt interactie een stuk natuurlijker.
GPT-4o (de "o" staat voor omni) is een bekend voorbeeld: het model reageert op gesproken vragen, analyseert foto's en genereert tekst — in hetzelfde gesprek. In deze module leer je hoe multimodale systemen zijn opgebouwd, wat ze toevoegen ten opzichte van enkelvoudige modellen, en welke nieuwe toepassingen daardoor mogelijk worden.
In deze module leer je
- Wat multimodaliteit betekent en welke modaliteiten er zijn
- Hoe een model tekst en beeld combineert in één architectuur
- Wat de voordelen zijn van multimodale modellen boven losse specialisten
- Welke nieuwe toepassingen multimodaliteit mogelijk maakt en welke risico's er bijkomen
Veelgestelde vragen
Een multimodaal model verwerkt meerdere soorten invoer — tekst, afbeeldingen, geluid, video — en combineert die in één systeem. Het kan bijvoorbeeld een foto beschrijven, een gesproken vraag beantwoorden of tekst en beeld samen analyseren.
GPT-4o is van de grond af gebouwd om tekst, audio en afbeeldingen samen te verwerken. Eerdere versies koppelden losse modellen aan elkaar; GPT-4o doet dit in één geïntegreerde architectuur, wat snellere en vloeiendere interactie geeft.
Niet per definitie. Multimodaliteit voegt breedte toe, geen diepte in elke modaliteit afzonderlijk. Een gespecialiseerd taalmodel kan voor pure teksttaken nog steeds beter presteren.
Deze module zit in de cursus AI voorbij tekst. Module 1 van AILogica is gratis.
Meer uit deze cursus: Hoe AI beelden maakt · Een korte geschiedenis van AI