Tokenisation
Tokenisation par caractère
Approche de granularité fine où chaque caractère individuel devient un token, éliminant ainsi complètement le problème des mots hors-vocabulaire. Bien que théoriquement parfaite pour la couverture, cette méthode augmente considérablement la longueur des séquences et réduit l'efficacité computationnelle.
← Indietro