قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227

الفئات

2,955

الفئات الفرعية

34,512

المصطلحات

📖

المصطلحات

Byte Pair Encoding (BPE)

Algorithme de compression de données adapté à la tokenisation qui fusionne itérativement les paires de caractères les plus fréquentes pour créer un vocabulaire de sous-mots optimisé.

📖

المصطلحات

WordPiece

Variante du BPE développée par Google qui maximise la probabilité du langage lors de la fusion des tokens, utilisée notamment dans les modèles BERT et ses variantes.

📖

المصطلحات

Unigram Language Model

Approche de tokenisation basée sur un modèle de langage unigramme qui sélectionne le meilleur découpage en maximisant la probabilité produit des tokens dans la séquence.

📖

المصطلحات

SentencePiece

Bibliothèque de tokenisation indépendante de la langue qui traite le texte comme une séquence unicode brute, éliminant le besoin de prétraitement spécifique à chaque langue.

📖

المصطلحات

Vocabulary Size

Paramètre critique déterminant le nombre total de tokens uniques dans le vocabulaire d'un modèle, influençant directement la taille du modèle et sa capacité à gérer la diversité linguistique.

📖

المصطلحات

Special Tokens

Tokens réservés comme [CLS], [SEP], [MASK], [PAD] utilisés pour délimiter les séquences, masquer des éléments ou remplir les batchs jusqu'à une longueur uniforme.

📖

المصطلحات

Tokenizer Training

Processus d'apprentissage automatique du vocabulaire et des règles de segmentation à partir d'un corpus de texte, optimisant la représentation pour une tâche ou un domaine spécifique.

📖

المصطلحات

Subword Regularization

Technique d'augmentation de données appliquant différentes segmentations possibles du même texte pendant l'entraînement, améliorant la robustesse et la généralisation du modèle.

📖

المصطلحات

Vocabulary Truncation

Processus de limitation du vocabulaire aux N tokens les plus fréquents, remplaçant les tokens moins fréquents par des sous-mots ou un token [UNK] pour optimiser l'efficacité computationnelle.

📖

المصطلحات

Tokenization Pipeline

Enchaînement séquentiel d'étapes de prétraitement incluant normalisation, pré-tokenisation, segmentation modèle et post-traitement pour produire les tokens finaux.

📖

المصطلحات

Tokenizer Config

Fichier de configuration JSON contenant tous les hyperparamètres et métadonnées nécessaires à la reproduction exacte du comportement d'un tokenizer spécifique.

📖

المصطلحات

Fast Tokenizers

Implémentations optimisées de tokenizers utilisant Rust et des structures de données efficaces, offrant des performances 10-100x supérieures aux implémentations Python pures.

📖

المصطلحات

Tokenizer Inference

Phase d'application d'un tokenizer entraîné sur de nouvelles données textuelles, convertissant le texte brut en séquences de tokens prêtes pour le traitement par le modèle.

🔍

قاموس الذكاء الاصطناعي

Byte Pair Encoding (BPE)

WordPiece

Unigram Language Model

SentencePiece

Vocabulary Size

Special Tokens

Tokenizer Training

Subword Regularization

Vocabulary Truncation

Tokenization Pipeline

Tokenizer Config

Fast Tokenizers

Tokenizer Inference

لم يتم العثور على نتائج