🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Corpus

Ensemble de données textuelles structurées utilisé pour l'entraînement des modèles de langage, contenant généralement des milliards de mots provenant de sources diverses.

📖
thuật ngữ

Common Crawl

Corpus web massif contenant des pétaoctets de données crawlées depuis internet, constituant l'une des principales sources de données pour le pre-training des LLM modernes.

📖
thuật ngữ

Data deduplication

Processus d'élimination des contenus dupliqués dans les corpus d'entraînement pour éviter le surapprentissage et améliorer la diversité des connaissances acquises par le modèle.

📖
thuật ngữ

Next Token Prediction

Objectif d'entraînement autoregressif où le modèle apprend à prédire le token suivant dans une séquence, fondamentale pour les modèles comme GPT.

📖
thuật ngữ

BPE (Byte Pair Encoding)

Algorithme de tokenisation subword qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire optimisé pour les modèles de langage.

📖
thuật ngữ

C4 (Colossal Clean Crawled Corpus)

Corpus prétraité dérivé de Common Crawl, nettoyé et filtré pour supprimer le contenu inapproprié, utilisé pour entraîner des modèles comme T5.

📖
thuật ngữ

Training tokens

Nombre total de tokens sur lesquels un modèle a été entraîné, métrique clé pour évaluer l'étendue des connaissances acquises durant le pre-training.

📖
thuật ngữ

Data quality filtering

Processus de sélection et filtrage des données d'entraînement pour éliminer le contenu de faible qualité, les biais et les informations inappropriées des corpus.

📖
thuật ngữ

Fine-tuning corpus

Ensemble de données spécialisées utilisées après le pre-training pour adapter le modèle à des tâches spécifiques ou des domaines d'expertise ciblés.

📖
thuật ngữ

The Pile

Corpus diversifié de 800Go contenant 22 sous-ensembles de données différents, conçu spécifiquement pour entraîner des LLM avec une large couverture de domaines.

📖
thuật ngữ

Subword tokenisation

Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.

🔍

Không tìm thấy kết quả