🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Tokeniser

Outil ou algorithme spécifique qui implémente les règles et méthodes de décomposition du texte en tokens selon un schéma prédéterminé. Les tokeniseurs modernes incluent des prétraitements comme la normalisation Unicode et le pré-tokenisation avant la segmentation principale.

📖
termes

Tokenisation par caractère

Approche de granularité fine où chaque caractère individuel devient un token, éliminant ainsi complètement le problème des mots hors-vocabulaire. Bien que théoriquement parfaite pour la couverture, cette méthode augmente considérablement la longueur des séquences et réduit l'efficacité computationnelle.

📖
termes

Tokenisation par mot

Méthode traditionnelle où chaque mot complet (délimité par des espaces ou ponctuations) devient un token unique. Cette approche souffre de limitations importantes avec les mots rares, les fautes d'orthographe et les vocabulaires de grande taille, la rendant peu adaptée aux LLM modernes.

📖
termes

Tokenisation par sous-mot

Stratégie intermédiaire qui divise les mots en fragments significatifs basés sur des statistiques de co-occurrence, comme les préfixes, suffixes ou radicaux. Cette méthode représente l'état de l'art dans les transformers, optimisant l'équilibre entre couverture du vocabulaire et efficacité computationnelle.

📖
termes

Espace de tokenisation

Dimension mathématique définie par la taille totale du vocabulaire, où chaque token est mappé à un identifiant numérique unique. Cet espace détermine la complexité computationnelle du traitement et influence directement la taille des embeddings et des couches d'attention dans les architectures transformers.

📖
termes

Tokenisation contextuelle

Technique avancée où la décision de segmentation dépend du contexte surrounding, permettant des tokenisations différentes pour le même mot selon son usage. Cette approche, utilisée dans des modèles comme XLNet, améliore la représentation sémantique mais augmente significativement la complexité computationnelle.

📖
termes

Out-of-Vocabulary (OOV)

Problème rencontré lorsque des tokens non présents dans le vocabulaire pré-défini apparaissent durant l'inférence, nécessitant des stratégies de gestion spécifiques. Les approches modernes de subword tokenisation réduisent considérablement les occurrences OOV, mais le traitement de ces cas reste crucial pour la robustesse.

📖
termes

Tokenisation greedy

Stratégie de segmentation qui sélectionne toujours le plus long token possible correspondant au début du mot restant à traiter. Cette approche simple et rapide peut cependant parfois produire des sous-optimalités par rapport à des méthodes globales qui considèrent l'ensemble de la séquence.

📖
termes

Tokenisation probabiliste

Approche qui utilise des modèles probabilistes pour évaluer différentes segmentations possibles et sélectionner la plus vraisemblable selon le corpus d'entraînement. Contrairement aux méthodes déterministes, elle peut produire des tokenisations variables en fonction des probabilités conditionnelles apprises.

🔍

Aucun résultat trouvé