🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Réseau de Gating (Gating Network)

Sous-réseau neuronal au sein d'une architecture MoE responsable du calcul des poids d'activation pour chaque expert, généralement en utilisant une fonction softmax pour générer une distribution de probabilité sur les experts.

📖
thuật ngữ

Expert

Sous-modèle individuel au sein d'une architecture MoE, typiquement un réseau de neurones, entraîné à se spécialiser sur un sous-espace particulier de la distribution des données d'entrée.

📖
thuật ngữ

Top-k Gating

Stratégie de gating où seuls les k experts ayant les poids d'activation les plus élevés sont activés pour une entrée donnée, réduisant ainsi le coût computationnel tout en maintenant la performance du modèle.

📖
thuật ngữ

Mécanisme de Routage

Processus algorithmique qui détermine comment les tokens ou les exemples d'entrée sont assignés aux différents experts dans un modèle MoE, influençant directement l'efficacité et l'équilibre de la charge.

📖
thuật ngữ

Perte d'Auxiliaire (Auxiliary Loss)

Terme de régularisation ajouté à la fonction de perte globale d'un modèle MoE pour encourager une distribution équilibrée du trafic entre les experts, évitant ainsi qu'un petit sous-ensemble d'experts ne domine.

📖
thuật ngữ

Surcapacité (Overcapacity)

Phénomène dans les modèles MoE où la capacité totale des experts activés dépasse celle d'un modèle dense standard, permettant une mise à l'échelle efficace du nombre de paramètres sans augmenter proportionnellement le coût de calcul.

📖
thuật ngữ

Mélange de Profondeurs (Mixture-of-Depths)

Variante de l'architecture MoE où le routage s'effectue non pas entre des experts distincts, mais entre différentes profondeurs d'un même réseau de transformateurs, activant sélectivement des couches.

📖
thuật ngữ

MoE Éparses (Sparse MoE)

Implémentation de Mixture of Experts où seule une fraction des experts est activée pour chaque token, ce qui permet d'augmenter massivement le nombre de paramètres du modèle tout en gardant le coût d'inférence constant par token.

📖
thuật ngữ

MoE Denses (Dense MoE)

Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.

📖
thuật ngữ

Équilibrage de Charge (Load Balancing)

Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.

📖
thuật ngữ

Mélange d'Adaptateurs (Mixture of Adapters)

Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.

📖
thuật ngữ

Expertise Conditionnelle (Conditional Computation)

Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.

📖
thuật ngữ

Bruit de Gating (Gating Noise)

Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.

📖
thuật ngữ

Mélange de Softmax (Mixture of Softmaxes)

Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.

📖
thuật ngữ

Coût de Routage (Routing Cost)

Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.

📖
thuật ngữ

Mélange de Têtes (Mixture of Heads)

Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.

🔍

Không tìm thấy kết quả