Hoe werkt spraakherkenning? AI en gesproken taal

CursussenCursus 8 · AI om je heen

Spraakherkenning — ook wel speech-to-text genoemd — zet gesproken taal om naar tekst. Voor een computer is geluid een rij getallen die de trilling van de lucht beschrijven. De uitdaging is om daarin woorden te herkennen, dwars door achtergrondlawaai, accenten en snelheid van spreken.

Moderne spraaksystemen gebruiken diepe neurale netwerken die getraind zijn op miljoenen uren spraak. Ze leren niet alleen klanken te herkennen, maar ook de context van een zin: welk woord is waarschijnlijk, gezien wat er al gezegd is? In deze module leer je hoe dat proces stap voor stap werkt en wat de grenzen zijn van huidige spraak-AI.

In deze module leer je

Onderdeel van AI om je heen · vanaf €39 Volg deze les →

Veelgestelde vragen

Hoe werkt spraakherkenning?

Spraakherkenning verwerkt geluid in drie stappen: het signaal wordt opgedeeld in korte frames, uit elk frame worden kenmerken (zoals frequentieverdeling) geëxtraheerd, en een neuraal netwerk vertaalt die kenmerken naar woorden, mede op basis van taalcontext.

Waarom maakt Siri fouten bij mijn accent?

Spraakmodellen presteren het best op accenten die goed vertegenwoordigd zijn in de trainingsdata. Minder voorkomende accenten of dialecten zijn vaak ondervertegenwoordigd, waardoor de herkenningsnauwkeurigheid lager is.

Wat is het verschil tussen spraakherkenning en een stemassistent?

Spraakherkenning zet geluid om naar tekst. Een stemassistent combineert dat met een taalmodel dat de tekst interpreteert en een actie uitvoert of een antwoord genereert. Spraakherkenning is de eerste stap; de rest is een apart systeem.

Wil je dit écht snappen?
Deze module zit in de cursus AI om je heen. Module 1 van AILogica is gratis.
Bekijk de cursussen

Meer uit deze cursus: Computer vision: hoe AI leert kijken · Aanbevelingssystemen: waarom je dít ziet · Reinforcement learning: leren met beloning