Tokenisation
Vocabulary Truncation
Processus de limitation du vocabulaire aux N tokens les plus fréquents, remplaçant les tokens moins fréquents par des sous-mots ou un token [UNK] pour optimiser l'efficacité computationnelle.
← Retour