Hoe werkt spraakherkenning? AI en gesproken taal
Cursussen › Cursus 8 · AI om je heen
Spraakherkenning — ook wel speech-to-text genoemd — zet gesproken taal om naar tekst. Voor een computer is geluid een rij getallen die de trilling van de lucht beschrijven. De uitdaging is om daarin woorden te herkennen, dwars door achtergrondlawaai, accenten en snelheid van spreken.
Moderne spraaksystemen gebruiken diepe neurale netwerken die getraind zijn op miljoenen uren spraak. Ze leren niet alleen klanken te herkennen, maar ook de context van een zin: welk woord is waarschijnlijk, gezien wat er al gezegd is? In deze module leer je hoe dat proces stap voor stap werkt en wat de grenzen zijn van huidige spraak-AI.
In deze module leer je
- Hoe een geluidssignaal wordt omgezet in kenmerken die een neuraal netwerk kan verwerken
- Hoe het model klanken, woorden en zinnen van elkaar onderscheidt
- Waarom context en taalmodellen cruciaal zijn voor nauwkeurige herkenning
- Waarom spraakherkenning moeilijker is in lawaaierige omgevingen of bij accenten
Veelgestelde vragen
Spraakherkenning verwerkt geluid in drie stappen: het signaal wordt opgedeeld in korte frames, uit elk frame worden kenmerken (zoals frequentieverdeling) geëxtraheerd, en een neuraal netwerk vertaalt die kenmerken naar woorden, mede op basis van taalcontext.
Spraakmodellen presteren het best op accenten die goed vertegenwoordigd zijn in de trainingsdata. Minder voorkomende accenten of dialecten zijn vaak ondervertegenwoordigd, waardoor de herkenningsnauwkeurigheid lager is.
Spraakherkenning zet geluid om naar tekst. Een stemassistent combineert dat met een taalmodel dat de tekst interpreteert en een actie uitvoert of een antwoord genereert. Spraakherkenning is de eerste stap; de rest is een apart systeem.
Deze module zit in de cursus AI om je heen. Module 1 van AILogica is gratis.
Meer uit deze cursus: Computer vision: hoe AI leert kijken · Aanbevelingssystemen: waarom je dít ziet · Reinforcement learning: leren met beloning