🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Byte Pair Encoding (BPE)

Algorithme de compression de données adapté à la tokenisation qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire de sous-mots optimisé.

📖
المصطلحات

WordPiece

Variante du BPE développée par Google qui maximise la probabilité du langage lors de la fusion des tokens, utilisée notamment dans les modèles BERT et ses variantes.

📖
المصطلحات

Unigram Language Model

Approche de tokenisation basée sur un modèle de langage unigramme qui sélectionne le meilleur découpage en maximisant la probabilité produit des tokens dans la séquence.

📖
المصطلحات

SentencePiece

Bibliothèque de tokenisation indépendante de la langue qui traite le texte comme une séquence unicode brute, éliminant le besoin de prétraitement spécifique à chaque langue.

📖
المصطلحات

Vocabulary Size

Paramètre critique déterminant le nombre total de tokens uniques dans le vocabulaire d'un modèle, influençant directement la taille du modèle et sa capacité à gérer la diversité linguistique.

📖
المصطلحات

Special Tokens

Tokens réservés comme [CLS], [SEP], [MASK], [PAD] utilisés pour délimiter les séquences, masquer des éléments ou remplir les batchs jusqu'à une longueur uniforme.

📖
المصطلحات

Tokenizer Training

Processus d'apprentissage automatique du vocabulaire et des règles de segmentation à partir d'un corpus de texte, optimisant la représentation pour une tâche ou un domaine spécifique.

📖
المصطلحات

Subword Regularization

Technique d'augmentation de données appliquant différentes segmentations possibles du même texte pendant l'entraînement, améliorant la robustesse et la généralisation du modèle.

📖
المصطلحات

Vocabulary Truncation

Processus de limitation du vocabulaire aux N tokens les plus fréquents, remplaçant les tokens moins fréquents par des sous-mots ou un token [UNK] pour optimiser l'efficacité computationnelle.

📖
المصطلحات

Tokenization Pipeline

Enchaînement séquentiel d'étapes de prétraitement incluant normalisation, pré-tokenisation, segmentation modèle et post-traitement pour produire les tokens finaux.

📖
المصطلحات

Tokenizer Config

Fichier de configuration JSON contenant tous les hyperparamètres et métadonnées nécessaires à la reproduction exacte du comportement d'un tokenizer spécifique.

📖
المصطلحات

Fast Tokenizers

Implémentations optimisées de tokenizers utilisant Rust et des structures de données efficaces, offrant des performances 10-100x supérieures aux implémentations Python pures.

📖
المصطلحات

Tokenizer Inference

Phase d'application d'un tokenizer entraîné sur de nouvelles données textuelles, convertissant le texte brut en séquences de tokens prêtes pour le traitement par le modèle.

🔍

لم يتم العثور على نتائج