Mixture of Experts - KI-Glossar

📖

Begriffe

Réseau de Gating (Gating Network)

Sous-réseau neuronal au sein d'une architecture MoE responsable du calcul des poids d'activation pour chaque expert, généralement en utilisant une fonction softmax pour générer une distribution de probabilité sur les experts.

📖

Begriffe

Expert

Sous-modèle individuel au sein d'une architecture MoE, typiquement un réseau de neurones, entraîné à se spécialiser sur un sous-espace particulier de la distribution des données d'entrée.

📖

Begriffe

Top-k Gating

Stratégie de gating où seuls les k experts ayant les poids d'activation les plus élevés sont activés pour une entrée donnée, réduisant ainsi le coût computationnel tout en maintenant la performance du modèle.

📖

Begriffe

Mécanisme de Routage

Processus algorithmique qui détermine comment les tokens ou les exemples d'entrée sont assignés aux différents experts dans un modèle MoE, influençant directement l'efficacité et l'équilibre de la charge.

📖

Begriffe

Perte d'Auxiliaire (Auxiliary Loss)

Terme de régularisation ajouté à la fonction de perte globale d'un modèle MoE pour encourager une distribution équilibrée du trafic entre les experts, évitant ainsi qu'un petit sous-ensemble d'experts ne domine.

📖

Begriffe

Surcapacité (Overcapacity)

Phénomène dans les modèles MoE où la capacité totale des experts activés dépasse celle d'un modèle dense standard, permettant une mise à l'échelle efficace du nombre de paramètres sans augmenter proportionnellement le coût de calcul.

📖

Begriffe

Mélange de Profondeurs (Mixture-of-Depths)

Variante de l'architecture MoE où le routage s'effectue non pas entre des experts distincts, mais entre différentes profondeurs d'un même réseau de transformateurs, activant sélectivement des couches.

📖

Begriffe

MoE Éparses (Sparse MoE)

Implémentation de Mixture of Experts où seule une fraction des experts est activée pour chaque token, ce qui permet d'augmenter massivement le nombre de paramètres du modèle tout en gardant le coût d'inférence constant par token.

📖

Begriffe

MoE Denses (Dense MoE)

Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.

📖

Begriffe

Équilibrage de Charge (Load Balancing)

Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.

📖

Begriffe

Mélange d'Adaptateurs (Mixture of Adapters)

Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.

📖

Begriffe

Expertise Conditionnelle (Conditional Computation)

Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.

📖

Begriffe

Bruit de Gating (Gating Noise)

Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.

📖

Begriffe

Mélange de Softmax (Mixture of Softmaxes)

Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.

📖

Begriffe

Coût de Routage (Routing Cost)

Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.

📖

Begriffe

Mélange de Têtes (Mixture of Heads)

Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.

KI-Glossar

Réseau de Gating (Gating Network)

Expert

Top-k Gating

Mécanisme de Routage

Perte d'Auxiliaire (Auxiliary Loss)

Surcapacité (Overcapacity)

Mélange de Profondeurs (Mixture-of-Depths)

MoE Éparses (Sparse MoE)

MoE Denses (Dense MoE)

Équilibrage de Charge (Load Balancing)

Mélange d'Adaptateurs (Mixture of Adapters)

Expertise Conditionnelle (Conditional Computation)

Bruit de Gating (Gating Noise)

Mélange de Softmax (Mixture of Softmaxes)

Coût de Routage (Routing Cost)

Mélange de Têtes (Mixture of Heads)

Keine Ergebnisse gefunden