Multimodaliteit — wat is het?

← AI-begrippenlijst

Multimodaliteit — Een multimodaal AI-model kan meerdere soorten informatie verwerken — zoals tekst, afbeeldingen, audio of video — in één systeem.

Vroege AI-modellen waren specialisten: een taalmodel voor tekst, een ander model voor beeldherkenning. Multimodale modellen combineren dit: je kunt een foto insturen en vragen stellen over wat erop staat, of een document met grafieken laten samenvatten. GPT-4o en Gemini zijn voorbeelden. Multimodaliteit maakt AI veel bruikbaarder in de echte wereld, waar informatie zelden puur tekstueel is.

Verder lezen: Multimodaliteit: tekst, beeld en geluid

Bekijk de cursussen Lees module 1 gratis