🏠 Hem
Benchmarkar
📊 Alla benchmarkar 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List-applikationer 🎨 Kreativa fria sidor 🎯 FSACB - Ultimata uppvisningen 🌍 Översättningsbenchmark
Modeller
🏆 Topp 10 modeller 🆓 Gratis modeller 📋 Alla modeller ⚙️ Kilo Code
Resurser
💬 Promptbibliotek 📖 AI-ordlista 🔗 Användbara länkar

AI-ordlista

Den kompletta ordlistan över AI

162
kategorier
2 032
underkategorier
23 060
termer
📖
termer

Corpus

Ensemble de données textuelles structurées utilisé pour l'entraînement des modèles de langage, contenant généralement des milliards de mots provenant de sources diverses.

📖
termer

Common Crawl

Corpus web massif contenant des pétaoctets de données crawlées depuis internet, constituant l'une des principales sources de données pour le pre-training des LLM modernes.

📖
termer

Data deduplication

Processus d'élimination des contenus dupliqués dans les corpus d'entraînement pour éviter le surapprentissage et améliorer la diversité des connaissances acquises par le modèle.

📖
termer

Next Token Prediction

Objectif d'entraînement autoregressif où le modèle apprend à prédire le token suivant dans une séquence, fondamentale pour les modèles comme GPT.

📖
termer

BPE (Byte Pair Encoding)

Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.

📖
termer

C4 (Colossal Clean Crawled Corpus)

Corpus prétraité dérivé de Common Crawl, nettoyé et filtré pour supprimer le contenu inapproprié, utilisé pour entraîner des modèles comme T5.

📖
termer

Training tokens

Nombre total de tokens sur lesquels un modèle a été entraîné, métrique clé pour évaluer l'étendue des connaissances acquises durant le pre-training.

📖
termer

Data quality filtering

Processus de sélection et filtrage des données d'entraînement pour éliminer le contenu de faible qualité, les biais et les informations inappropriées des corpus.

📖
termer

Fine-tuning corpus

Ensemble de données spécialisées utilisées après le pre-training pour adapter le modèle à des tâches spécifiques ou des domaines d'expertise ciblés.

📖
termer

The Pile

Corpus diversifié de 800Go contenant 22 sous-ensembles de données différents, conçu spécifiquement pour entraîner des LLM avec une large couverture de domaines.

📖
termer

Subword tokenisation

Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.

🔍

Inga resultat hittades