Pre-training et Corpora
BPE (Byte Pair Encoding)
Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.
← Indietro