Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Byte Pair Encoding (BPE)
Algorithme de compression de données adapté à la tokenisation qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire de sous-mots optimisé.
WordPiece
Variante du BPE développée par Google qui maximise la probabilité du langage lors de la fusion des tokens, utilisée notamment dans les modèles BERT et ses variantes.
Unigram Language Model
Approche de tokenisation basée sur un modèle de langage unigramme qui sélectionne le meilleur découpage en maximisant la probabilité produit des tokens dans la séquence.
SentencePiece
Bibliothèque de tokenisation indépendante de la langue qui traite le texte comme une séquence unicode brute, éliminant le besoin de prétraitement spécifique à chaque langue.
Vocabulary Size
Paramètre critique déterminant le nombre total de tokens uniques dans le vocabulaire d'un modèle, influençant directement la taille du modèle et sa capacité à gérer la diversité linguistique.
Special Tokens
Tokens réservés comme [CLS], [SEP], [MASK], [PAD] utilisés pour délimiter les séquences, masquer des éléments ou remplir les batchs jusqu'à une longueur uniforme.
Tokenizer Training
Processus d'apprentissage automatique du vocabulaire et des règles de segmentation à partir d'un corpus de texte, optimisant la représentation pour une tâche ou un domaine spécifique.
Subword Regularization
Technique d'augmentation de données appliquant différentes segmentations possibles du même texte pendant l'entraînement, améliorant la robustesse et la généralisation du modèle.
Vocabulary Truncation
Processus de limitation du vocabulaire aux N tokens les plus fréquents, remplaçant les tokens moins fréquents par des sous-mots ou un token [UNK] pour optimiser l'efficacité computationnelle.
Tokenization Pipeline
Enchaînement séquentiel d'étapes de prétraitement incluant normalisation, pré-tokenisation, segmentation modèle et post-traitement pour produire les tokens finaux.
Tokenizer Config
Fichier de configuration JSON contenant tous les hyperparamètres et métadonnées nécessaires à la reproduction exacte du comportement d'un tokenizer spécifique.
Fast Tokenizers
Implémentations optimisées de tokenizers utilisant Rust et des structures de données efficaces, offrant des performances 10-100x supérieures aux implémentations Python pures.
Tokenizer Inference
Phase d'application d'un tokenizer entraîné sur de nouvelles données textuelles, convertissant le texte brut en séquences de tokens prêtes pour le traitement par le modèle.