Tokenisation - AI 术语表

📖

个术语

Tokeniser

Outil ou algorithme spécifique qui implémente les règles et méthodes de décomposition du texte en tokens selon un schéma prédéterminé. Les tokeniseurs modernes incluent des prétraitements comme la normalisation Unicode et le pré-tokenisation avant la segmentation principale.

📖

个术语

Tokenisation par caractère

Approche de granularité fine où chaque caractère individuel devient un token, éliminant ainsi complètement le problème des mots hors-vocabulaire. Bien que théoriquement parfaite pour la couverture, cette méthode augmente considérablement la longueur des séquences et réduit l'efficacité computationnelle.

📖

个术语

Tokenisation par mot

Méthode traditionnelle où chaque mot complet (délimité par des espaces ou ponctuations) devient un token unique. Cette approche souffre de limitations importantes avec les mots rares, les fautes d'orthographe et les vocabulaires de grande taille, la rendant peu adaptée aux LLM modernes.

📖

个术语

Tokenisation par sous-mot

Stratégie intermédiaire qui divise les mots en fragments significatifs basés sur des statistiques de co-occurrence, comme les préfixes, suffixes ou radicaux. Cette méthode représente l'état de l'art dans les transformers, optimisant l'équilibre entre couverture du vocabulaire et efficacité computationnelle.

📖

个术语

Espace de tokenisation

Dimension mathématique définie par la taille totale du vocabulaire, où chaque token est mappé à un identifiant numérique unique. Cet espace détermine la complexité computationnelle du traitement et influence directement la taille des embeddings et des couches d'attention dans les architectures transformers.

📖

个术语

Tokenisation contextuelle

Technique avancée où la décision de segmentation dépend du contexte surrounding, permettant des tokenisations différentes pour le même mot selon son usage. Cette approche, utilisée dans des modèles comme XLNet, améliore la représentation sémantique mais augmente significativement la complexité computationnelle.

📖

个术语

Out-of-Vocabulary (OOV)

Problème rencontré lorsque des tokens non présents dans le vocabulaire pré-défini apparaissent durant l'inférence, nécessitant des stratégies de gestion spécifiques. Les approches modernes de subword tokenisation réduisent considérablement les occurrences OOV, mais le traitement de ces cas reste crucial pour la robustesse.

📖

个术语

Tokenisation greedy

Stratégie de segmentation qui sélectionne toujours le plus long token possible correspondant au début du mot restant à traiter. Cette approche simple et rapide peut cependant parfois produire des sous-optimalités par rapport à des méthodes globales qui considèrent l'ensemble de la séquence.

📖

个术语

Tokenisation probabiliste

Approche qui utilise des modèles probabilistes pour évaluer différentes segmentations possibles et sélectionner la plus vraisemblable selon le corpus d'entraînement. Contrairement aux méthodes déterministes, elle peut produire des tokenisations variables en fonction des probabilités conditionnelles apprises.

AI 词汇表