🏠 Startseite
Vergleiche
📊 Alle Benchmarks 🦖 Dinosaurier v1 🦖 Dinosaurier v2 ✅ To-Do-Listen-Apps 🎨 Kreative freie Seiten 🎯 FSACB - Ultimatives Showcase 🌍 Übersetzungs-Benchmark
Modelle
🏆 Top 10 Modelle 🆓 Kostenlose Modelle 📋 Alle Modelle ⚙️ Kilo Code
Ressourcen
💬 Prompt-Bibliothek 📖 KI-Glossar 🔗 Nützliche Links

KI-Glossar

Das vollständige Wörterbuch der Künstlichen Intelligenz

162
Kategorien
2.032
Unterkategorien
23.060
Begriffe
📖
Begriffe

Réseau de Gating (Gating Network)

Sous-réseau neuronal au sein d'une architecture MoE responsable du calcul des poids d'activation pour chaque expert, généralement en utilisant une fonction softmax pour générer une distribution de probabilité sur les experts.

📖
Begriffe

Expert

Sous-modèle individuel au sein d'une architecture MoE, typiquement un réseau de neurones, entraîné à se spécialiser sur un sous-espace particulier de la distribution des données d'entrée.

📖
Begriffe

Top-k Gating

Stratégie de gating où seuls les k experts ayant les poids d'activation les plus élevés sont activés pour une entrée donnée, réduisant ainsi le coût computationnel tout en maintenant la performance du modèle.

📖
Begriffe

Mécanisme de Routage

Processus algorithmique qui détermine comment les tokens ou les exemples d'entrée sont assignés aux différents experts dans un modèle MoE, influençant directement l'efficacité et l'équilibre de la charge.

📖
Begriffe

Perte d'Auxiliaire (Auxiliary Loss)

Terme de régularisation ajouté à la fonction de perte globale d'un modèle MoE pour encourager une distribution équilibrée du trafic entre les experts, évitant ainsi qu'un petit sous-ensemble d'experts ne domine.

📖
Begriffe

Surcapacité (Overcapacity)

Phénomène dans les modèles MoE où la capacité totale des experts activés dépasse celle d'un modèle dense standard, permettant une mise à l'échelle efficace du nombre de paramètres sans augmenter proportionnellement le coût de calcul.

📖
Begriffe

Mélange de Profondeurs (Mixture-of-Depths)

Variante de l'architecture MoE où le routage s'effectue non pas entre des experts distincts, mais entre différentes profondeurs d'un même réseau de transformateurs, activant sélectivement des couches.

📖
Begriffe

MoE Éparses (Sparse MoE)

Implémentation de Mixture of Experts où seule une fraction des experts est activée pour chaque token, ce qui permet d'augmenter massivement le nombre de paramètres du modèle tout en gardant le coût d'inférence constant par token.

📖
Begriffe

MoE Denses (Dense MoE)

Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.

📖
Begriffe

Équilibrage de Charge (Load Balancing)

Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.

📖
Begriffe

Mélange d'Adaptateurs (Mixture of Adapters)

Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.

📖
Begriffe

Expertise Conditionnelle (Conditional Computation)

Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.

📖
Begriffe

Bruit de Gating (Gating Noise)

Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.

📖
Begriffe

Mélange de Softmax (Mixture of Softmaxes)

Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.

📖
Begriffe

Coût de Routage (Routing Cost)

Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.

📖
Begriffe

Mélange de Têtes (Mixture of Heads)

Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.

🔍

Keine Ergebnisse gefunden