Tokenization Subword

📖

termes

Technique de segmentation du texte en unités linguistiques plus petites que les mots mais plus grandes que les caractères, permettant de gérer efficacement le vocabulaire et les mots rares dans les modèles transformers.

📖

termes

Unknown Token (UNK)

Token spécial utilisé pour représenter les mots ou sous-mots non présents dans le vocabulaire du tokenizer, permettant au modèle de gérer les entrées hors-vocabulaire lors de l'inférence.

📖

termes

Morphological Analysis

Processus d'identification des morphèmes et structures grammaticales dans les mots, optimisé par les tokenizers subword qui capturent naturellement les régularités morphologiques des langues.

📖

termes

Character-level Tokenization

Approche de segmentation qui traite chaque caractère individuel comme un token, éliminant les problèmes de vocabulaire mais augmentant la longueur des séquences au détriment de l'efficacité computationnelle.

📖

termes

Word-level Tokenization

Méthode traditionnelle utilisant les mots entiers comme unités de token, limitée par l'explosion du vocabulaire et l'incapacité à gérer les mots hors-vocabulaire et les variations morphologiques.

📖

termes

BPE Dropouts

Technique de régularisation introduisant de l'aléatoire dans le processus de tokenization BPE en ignorant certaines fusions pendant l'entraînement, améliorant la robustesse et la généralisation du modèle.

📖

termes

Special Tokens (CLS, SEP, PAD, MASK)

Tokens réservés avec des fonctions spécifiques dans BERT : CLS pour la classification, SEP pour la séparation, PAD pour l'alignement et MASK pour le masquage lors du pré-entraînement.

📖

termes

Token ID Mapping

Correspondance bijective entre chaque token du vocabulaire et un identifiant numérique unique, permettant la conversion efficace entre représentations textuelles et numériques dans les modèles neuronaux.

📖

termes

Token Compression

Objectif principal de la tokenization subword visant à minimiser le nombre moyen de tokens par mot tout en maintenant un vocabulaire de taille raisonnable pour des performances computationnelles optimales.

📖

termes

Token Frequency Threshold

Paramètre définissant la fréquence minimale qu'un token doit atteindre pour être inclus dans le vocabulaire, crucial pour équilibrer couverture et taille du vocabulaire dans la tokenization subword.

📖

termes

Subword Segmentation Algorithm

Ensemble de règles et heuristiques déterminant comment diviser les mots inconnus en sous-mots existants du vocabulaire, basé sur des principes de maximisation de la probabilité et de minimisation des segments.

📖

termes

Vocabulary Coverage

Métrique évaluant la proportion du corpus pouvant être représentée sans tokens UNK, optimisée par les algorithmes subword pour atteindre typiquement plus de 99.9% de couverture sur les corpus modernes.

Glossaire IA