KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Réseau de Gating (Gating Network)
Sous-réseau neuronal au sein d'une architecture MoE responsable du calcul des poids d'activation pour chaque expert, généralement en utilisant une fonction softmax pour générer une distribution de probabilité sur les experts.
Expert
Sous-modèle individuel au sein d'une architecture MoE, typiquement un réseau de neurones, entraîné à se spécialiser sur un sous-espace particulier de la distribution des données d'entrée.
Top-k Gating
Stratégie de gating où seuls les k experts ayant les poids d'activation les plus élevés sont activés pour une entrée donnée, réduisant ainsi le coût computationnel tout en maintenant la performance du modèle.
Mécanisme de Routage
Processus algorithmique qui détermine comment les tokens ou les exemples d'entrée sont assignés aux différents experts dans un modèle MoE, influençant directement l'efficacité et l'équilibre de la charge.
Perte d'Auxiliaire (Auxiliary Loss)
Terme de régularisation ajouté à la fonction de perte globale d'un modèle MoE pour encourager une distribution équilibrée du trafic entre les experts, évitant ainsi qu'un petit sous-ensemble d'experts ne domine.
Surcapacité (Overcapacity)
Phénomène dans les modèles MoE où la capacité totale des experts activés dépasse celle d'un modèle dense standard, permettant une mise à l'échelle efficace du nombre de paramètres sans augmenter proportionnellement le coût de calcul.
Mélange de Profondeurs (Mixture-of-Depths)
Variante de l'architecture MoE où le routage s'effectue non pas entre des experts distincts, mais entre différentes profondeurs d'un même réseau de transformateurs, activant sélectivement des couches.
MoE Éparses (Sparse MoE)
Implémentation de Mixture of Experts où seule une fraction des experts est activée pour chaque token, ce qui permet d'augmenter massivement le nombre de paramètres du modèle tout en gardant le coût d'inférence constant par token.
MoE Denses (Dense MoE)
Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.
Équilibrage de Charge (Load Balancing)
Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.
Mélange d'Adaptateurs (Mixture of Adapters)
Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.
Expertise Conditionnelle (Conditional Computation)
Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.
Bruit de Gating (Gating Noise)
Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.
Mélange de Softmax (Mixture of Softmaxes)
Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.
Coût de Routage (Routing Cost)
Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.
Mélange de Têtes (Mixture of Heads)
Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.