Self-supervised learning — wat is het?
Self-supervised learning — Self-supervised learning is een techniek waarbij het model zijn eigen labels afleidt uit de data zelf, zonder menselijke annotatie.
Bij taalmodellen zijn er twee gangbare varianten: voorspel het volgende woord op basis van alle voorgaande (GPT-stijl), of verberg een woord en laat het model dat invullen (BERT-stijl). In beide gevallen komen de 'labels' uit de data zelf. Dit maakt het mogelijk om te trainen op enorme hoeveelheden ongelabelde tekst van internet. Self-supervised learning is de basis van hoe moderne taalmodellen hun brede kennis opdoen.
Verder lezen: Van GPT naar ChatGPT