Wat is multimodale AI? Tekst, beeld en geluid

CursussenCursus 5 · AI voorbij tekst

Multimodale AI verwerkt meer dan één soort invoer tegelijk: tekst, afbeeldingen, audio of video. Waar eerdere modellen één ding konden — tekst begrijpen óf een foto beschrijven — verwerkt een multimodaal model die signalen samen in dezelfde architectuur. Dat maakt interactie een stuk natuurlijker.

GPT-4o (de "o" staat voor omni) is een bekend voorbeeld: het model reageert op gesproken vragen, analyseert foto's en genereert tekst — in hetzelfde gesprek. In deze module leer je hoe multimodale systemen zijn opgebouwd, wat ze toevoegen ten opzichte van enkelvoudige modellen, en welke nieuwe toepassingen daardoor mogelijk worden.

In deze module leer je

Onderdeel van AI voorbij tekst · vanaf €39 Volg deze les →

Veelgestelde vragen

Wat is een multimodaal AI-model?

Een multimodaal model verwerkt meerdere soorten invoer — tekst, afbeeldingen, geluid, video — en combineert die in één systeem. Het kan bijvoorbeeld een foto beschrijven, een gesproken vraag beantwoorden of tekst en beeld samen analyseren.

Wat maakt GPT-4o multimodaal?

GPT-4o is van de grond af gebouwd om tekst, audio en afbeeldingen samen te verwerken. Eerdere versies koppelden losse modellen aan elkaar; GPT-4o doet dit in één geïntegreerde architectuur, wat snellere en vloeiendere interactie geeft.

Zijn multimodale modellen ook beter in teksttaken?

Niet per definitie. Multimodaliteit voegt breedte toe, geen diepte in elke modaliteit afzonderlijk. Een gespecialiseerd taalmodel kan voor pure teksttaken nog steeds beter presteren.

Wil je dit écht snappen?
Deze module zit in de cursus AI voorbij tekst. Module 1 van AILogica is gratis.
Bekijk de cursussen

Meer uit deze cursus: Hoe AI beelden maakt · Een korte geschiedenis van AI