🏠 Home
Benchmark Hub
📊 All Benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List Applications 🎨 Creative Free Pages 🎯 FSACB - Ultimate Showcase 🌍 Translation Benchmark
Models
🏆 Top 10 Models 🆓 Free Models 📋 All Models ⚙️ Kilo Code
Resources
💬 Prompts Library 📖 AI Glossary 🔗 Useful Links

AI Glossary

The complete dictionary of Artificial Intelligence

162
categories
2,032
subcategories
23,060
terms
📖
terms

Corpus

Ensemble de données textuelles structurées utilisé pour l'entraînement des modèles de langage, contenant généralement des milliards de mots provenant de sources diverses.

📖
terms

Common Crawl

Corpus web massif contenant des pétaoctets de données crawlées depuis internet, constituant l'une des principales sources de données pour le pre-training des LLM modernes.

📖
terms

Data deduplication

Processus d'élimination des contenus dupliqués dans les corpus d'entraînement pour éviter le surapprentissage et améliorer la diversité des connaissances acquises par le modèle.

📖
terms

Next Token Prediction

Objectif d'entraînement autoregressif où le modèle apprend à prédire le token suivant dans une séquence, fondamentale pour les modèles comme GPT.

📖
terms

BPE (Byte Pair Encoding)

Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.

📖
terms

C4 (Colossal Clean Crawled Corpus)

Corpus prétraité dérivé de Common Crawl, nettoyé et filtré pour supprimer le contenu inapproprié, utilisé pour entraîner des modèles comme T5.

📖
terms

Training tokens

Nombre total de tokens sur lesquels un modèle a été entraîné, métrique clé pour évaluer l'étendue des connaissances acquises durant le pre-training.

📖
terms

Data quality filtering

Processus de sélection et filtrage des données d'entraînement pour éliminer le contenu de faible qualité, les biais et les informations inappropriées des corpus.

📖
terms

Fine-tuning corpus

Ensemble de données spécialisées utilisées après le pre-training pour adapter le modèle à des tâches spécifiques ou des domaines d'expertise ciblés.

📖
terms

The Pile

Corpus diversifié de 800Go contenant 22 sous-ensembles de données différents, conçu spécifiquement pour entraîner des LLM avec une large couverture de domaines.

📖
terms

Subword tokenisation

Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.

🔍

No results found