Tokenisation
Tokenisation par sous-mot
Stratégie intermédiaire qui divise les mots en fragments significatifs basés sur des statistiques de co-occurrence, comme les préfixes, suffixes ou radicaux. Cette méthode représente l'état de l'art dans les transformers, optimisant l'équilibre entre couverture du vocabulaire et efficacité computationnelle.
← 뒤로