Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Corpus
Ensemble de données textuelles structurées utilisé pour l'entraînement des modèles de langage, contenant généralement des milliards de mots provenant de sources diverses.
Common Crawl
Corpus web massif contenant des pétaoctets de données crawlées depuis internet, constituant l'une des principales sources de données pour le pre-training des LLM modernes.
Data deduplication
Processus d'élimination des contenus dupliqués dans les corpus d'entraînement pour éviter le surapprentissage et améliorer la diversité des connaissances acquises par le modèle.
Next Token Prediction
Objectif d'entraînement autoregressif où le modèle apprend à prédire le token suivant dans une séquence, fondamentale pour les modèles comme GPT.
BPE (Byte Pair Encoding)
Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.
C4 (Colossal Clean Crawled Corpus)
Corpus prétraité dérivé de Common Crawl, nettoyé et filtré pour supprimer le contenu inapproprié, utilisé pour entraîner des modèles comme T5.
Training tokens
Nombre total de tokens sur lesquels un modèle a été entraîné, métrique clé pour évaluer l'étendue des connaissances acquises durant le pre-training.
Data quality filtering
Processus de sélection et filtrage des données d'entraînement pour éliminer le contenu de faible qualité, les biais et les informations inappropriées des corpus.
Fine-tuning corpus
Ensemble de données spécialisées utilisées après le pre-training pour adapter le modèle à des tâches spécifiques ou des domaines d'expertise ciblés.
The Pile
Corpus diversifié de 800Go contenant 22 sous-ensembles de données différents, conçu spécifiquement pour entraîner des LLM avec une large couverture de domaines.
Subword tokenisation
Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.