Tokenisation - AI 詞彙表

📖

術語

Tokeniser

Outil ou algorithme spécifique qui implémente les règles et méthodes de décomposition du texte en tokens selon un schéma prédéterminé. Les tokeniseurs modernes incluent des prétraitements comme la normalisation Unicode et le pré-tokenisation avant la segmentation principale.

📖

術語

Tokenisation par caractère

Approche de granularité fine où chaque caractère individuel devient un token, éliminant ainsi complètement le problème des mots hors-vocabulaire. Bien que théoriquement parfaite pour la couverture, cette méthode augmente considérablement la longueur des séquences et réduit l'efficacité computationnelle.

📖

術語

Tokenisation par mot

Méthode traditionnelle où chaque mot complet (délimité par des espaces ou ponctuations) devient un token unique. Cette approche souffre de limitations importantes avec les mots rares, les fautes d'orthographe et les vocabulaires de grande taille, la rendant peu adaptée aux LLM modernes.

📖

術語

Tokenisation par sous-mot

Stratégie intermédiaire qui divise les mots en fragments significatifs basés sur des statistiques de co-occurrence, comme les préfixes, suffixes ou radicaux. Cette méthode représente l'état de l'art dans les transformers, optimisant l'équilibre entre couverture du vocabulaire et efficacité computationnelle.

📖

術語

Espace de tokenisation

Dimension mathématique définie par la taille totale du vocabulaire, où chaque token est mappé à un identifiant numérique unique. Cet espace détermine la complexité computationnelle du traitement et influence directement la taille des embeddings et des couches d'attention dans les architectures transformers.

📖

術語

Tokenisation contextuelle

Technique avancée où la décision de segmentation dépend du contexte surrounding, permettant des tokenisations différentes pour le même mot selon son usage. Cette approche, utilisée dans des modèles comme XLNet, améliore la représentation sémantique mais augmente significativement la complexité computationnelle.

📖

術語

Out-of-Vocabulary (OOV)

Problème rencontré lorsque des tokens non présents dans le vocabulaire pré-défini apparaissent durant l'inférence, nécessitant des stratégies de gestion spécifiques. Les approches modernes de subword tokenisation réduisent considérablement les occurrences OOV, mais le traitement de ces cas reste crucial pour la robustesse.

📖

術語

Tokenisation greedy

Stratégie de segmentation qui sélectionne toujours le plus long token possible correspondant au début du mot restant à traiter. Cette approche simple et rapide peut cependant parfois produire des sous-optimalités par rapport à des méthodes globales qui considèrent l'ensemble de la séquence.

📖

術語

Tokenisation probabiliste

Approche qui utilise des modèles probabilistes pour évaluer différentes segmentations possibles et sélectionner la plus vraisemblable selon le corpus d'entraînement. Contrairement aux méthodes déterministes, elle peut produire des tokenisations variables en fonction des probabilités conditionnelles apprises.

AI 詞彙表