Tokenisation et Encodage
Unigram Language Model Tokenisation
Méthode de tokenisation qui initialise un large vocabulaire puis le réduit itérativement en supprimant les sous-mots ayant le plus faible impact sur la vraisemblance du modèle unigram, produisant un vocabulaire optimal.
← Retour