AI Glossary
The complete dictionary of Artificial Intelligence
Tokeniser
Outil ou algorithme spécifique qui implémente les règles et méthodes de décomposition du texte en tokens selon un schéma prédéterminé. Les tokeniseurs modernes incluent des prétraitements comme la normalisation Unicode et le pré-tokenisation avant la segmentation principale.
Tokenisation par caractère
Approche de granularité fine où chaque caractère individuel devient un token, éliminant ainsi complètement le problème des mots hors-vocabulaire. Bien que théoriquement parfaite pour la couverture, cette méthode augmente considérablement la longueur des séquences et réduit l'efficacité computationnelle.
Tokenisation par mot
Méthode traditionnelle où chaque mot complet (délimité par des espaces ou ponctuations) devient un token unique. Cette approche souffre de limitations importantes avec les mots rares, les fautes d'orthographe et les vocabulaires de grande taille, la rendant peu adaptée aux LLM modernes.
Tokenisation par sous-mot
Stratégie intermédiaire qui divise les mots en fragments significatifs basés sur des statistiques de co-occurrence, comme les préfixes, suffixes ou radicaux. Cette méthode représente l'état de l'art dans les transformers, optimisant l'équilibre entre couverture du vocabulaire et efficacité computationnelle.
Espace de tokenisation
Dimension mathématique définie par la taille totale du vocabulaire, où chaque token est mappé à un identifiant numérique unique. Cet espace détermine la complexité computationnelle du traitement et influence directement la taille des embeddings et des couches d'attention dans les architectures transformers.
Tokenisation contextuelle
Technique avancée où la décision de segmentation dépend du contexte surrounding, permettant des tokenisations différentes pour le même mot selon son usage. Cette approche, utilisée dans des modèles comme XLNet, améliore la représentation sémantique mais augmente significativement la complexité computationnelle.
Out-of-Vocabulary (OOV)
Problème rencontré lorsque des tokens non présents dans le vocabulaire pré-défini apparaissent durant l'inférence, nécessitant des stratégies de gestion spécifiques. Les approches modernes de subword tokenisation réduisent considérablement les occurrences OOV, mais le traitement de ces cas reste crucial pour la robustesse.
Tokenisation greedy
Stratégie de segmentation qui sélectionne toujours le plus long token possible correspondant au début du mot restant à traiter. Cette approche simple et rapide peut cependant parfois produire des sous-optimalités par rapport à des méthodes globales qui considèrent l'ensemble de la séquence.
Tokenisation probabiliste
Approche qui utilise des modèles probabilistes pour évaluer différentes segmentations possibles et sélectionner la plus vraisemblable selon le corpus d'entraînement. Contrairement aux méthodes déterministes, elle peut produire des tokenisations variables en fonction des probabilités conditionnelles apprises.