🏠 Beranda
Benchmark
📊 Semua Benchmark 🦖 Dinosaurus v1 🦖 Dinosaurus v2 ✅ Aplikasi To-Do List 🎨 Halaman Bebas Kreatif 🎯 FSACB - Showcase Utama 🌍 Benchmark Terjemahan
Model
🏆 Top 10 Model 🆓 Model Gratis 📋 Semua Model ⚙️ Kilo Code
Sumber Daya
💬 Perpustakaan Prompt 📖 Glosarium AI 🔗 Tautan Berguna

Glosarium AI

Kamus lengkap Kecerdasan Buatan

162
kategori
2.032
subkategori
23.060
istilah
📖
istilah

Corpus

Ensemble de données textuelles structurées utilisé pour l'entraînement des modèles de langage, contenant généralement des milliards de mots provenant de sources diverses.

📖
istilah

Common Crawl

Corpus web massif contenant des pétaoctets de données crawlées depuis internet, constituant l'une des principales sources de données pour le pre-training des LLM modernes.

📖
istilah

Data deduplication

Processus d'élimination des contenus dupliqués dans les corpus d'entraînement pour éviter le surapprentissage et améliorer la diversité des connaissances acquises par le modèle.

📖
istilah

Next Token Prediction

Objectif d'entraînement autoregressif où le modèle apprend à prédire le token suivant dans une séquence, fondamentale pour les modèles comme GPT.

📖
istilah

BPE (Byte Pair Encoding)

Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.

📖
istilah

C4 (Colossal Clean Crawled Corpus)

Corpus prétraité dérivé de Common Crawl, nettoyé et filtré pour supprimer le contenu inapproprié, utilisé pour entraîner des modèles comme T5.

📖
istilah

Training tokens

Nombre total de tokens sur lesquels un modèle a été entraîné, métrique clé pour évaluer l'étendue des connaissances acquises durant le pre-training.

📖
istilah

Data quality filtering

Processus de sélection et filtrage des données d'entraînement pour éliminer le contenu de faible qualité, les biais et les informations inappropriées des corpus.

📖
istilah

Fine-tuning corpus

Ensemble de données spécialisées utilisées après le pre-training pour adapter le modèle à des tâches spécifiques ou des domaines d'expertise ciblés.

📖
istilah

The Pile

Corpus diversifié de 800Go contenant 22 sous-ensembles de données différents, conçu spécifiquement pour entraîner des LLM avec une large couverture de domaines.

📖
istilah

Subword tokenisation

Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.

🔍

Tidak ada hasil ditemukan