🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Tokenization Subword

Technique de segmentation du texte en unités linguistiques plus petites que les mots mais plus grandes que les caractères, permettant de gérer efficacement le vocabulaire et les mots rares dans les modèles transformers.

📖
thuật ngữ

Unknown Token (UNK)

Token spécial utilisé pour représenter les mots ou sous-mots non présents dans le vocabulaire du tokenizer, permettant au modèle de gérer les entrées hors-vocabulaire lors de l'inférence.

📖
thuật ngữ

Morphological Analysis

Processus d'identification des morphèmes et structures grammaticales dans les mots, optimisé par les tokenizers subword qui capturent naturellement les régularités morphologiques des langues.

📖
thuật ngữ

Character-level Tokenization

Approche de segmentation qui traite chaque caractère individuel comme un token, éliminant les problèmes de vocabulaire mais augmentant la longueur des séquences au détriment de l'efficacité computationnelle.

📖
thuật ngữ

Word-level Tokenization

Méthode traditionnelle utilisant les mots entiers comme unités de token, limitée par l'explosion du vocabulaire et l'incapacité à gérer les mots hors-vocabulaire et les variations morphologiques.

📖
thuật ngữ

BPE Dropouts

Technique de régularisation introduisant de l'aléatoire dans le processus de tokenization BPE en ignorant certaines fusions pendant l'entraînement, améliorant la robustesse et la généralisation du modèle.

📖
thuật ngữ

Special Tokens (CLS, SEP, PAD, MASK)

Tokens réservés avec des fonctions spécifiques dans BERT : CLS pour la classification, SEP pour la séparation, PAD pour l'alignement et MASK pour le masquage lors du pré-entraînement.

📖
thuật ngữ

Token ID Mapping

Correspondance bijective entre chaque token du vocabulaire et un identifiant numérique unique, permettant la conversion efficace entre représentations textuelles et numériques dans les modèles neuronaux.

📖
thuật ngữ

Token Compression

Objectif principal de la tokenization subword visant à minimiser le nombre moyen de tokens par mot tout en maintenant un vocabulaire de taille raisonnable pour des performances computationnelles optimales.

📖
thuật ngữ

Token Frequency Threshold

Paramètre définissant la fréquence minimale qu'un token doit atteindre pour être inclus dans le vocabulaire, crucial pour équilibrer couverture et taille du vocabulaire dans la tokenization subword.

📖
thuật ngữ

Subword Segmentation Algorithm

Ensemble de règles et heuristiques déterminant comment diviser les mots inconnus en sous-mots existants du vocabulaire, basé sur des principes de maximisation de la probabilité et de minimisation des segments.

📖
thuật ngữ

Vocabulary Coverage

Métrique évaluant la proportion du corpus pouvant être représentée sans tokens UNK, optimisée par les algorithmes subword pour atteindre typiquement plus de 99.9% de couverture sur les corpus modernes.

🔍

Không tìm thấy kết quả