Mixture of Experts - Glosario IA

📖

términos

Red de Gating (Gating Network)

Subred neuronal dentro de una arquitectura MoE responsable del cálculo de los pesos de activación para cada experto, generalmente utilizando una función softmax para generar una distribución de probabilidad sobre los expertos.

📖

términos

Experto

Submodelo individual dentro de una arquitectura MoE, típicamente una red neuronal, entrenado para especializarse en un subespacio particular de la distribución de los datos de entrada.

📖

términos

Top-k Gating

Estrategia de gating donde solo los k expertos con los pesos de activación más altos son activados para una entrada dada, reduciendo así el costo computacional mientras se mantiene el rendimiento del modelo.

📖

términos

Mecanismo de Enrutamiento

Proceso algorítmico que determina cómo los tokens o ejemplos de entrada son asignados a los diferentes expertos en un modelo MoE, influenciando directamente la eficiencia y el equilibrio de la carga.

📖

términos

Pérdida Auxiliar (Auxiliary Loss)

Término de regularización agregado a la función de pérdida global de un modelo MoE para fomentar una distribución equilibrada del tráfico entre los expertos, evitando así que un pequeño subconjunto de expertos domine.

📖

términos

Sobrecapacidad (Overcapacity)

Fenómeno en los modelos MoE donde la capacidad total de los expertos activados excede la de un modelo denso estándar, permitiendo una escalada eficiente del número de parámetros sin aumentar proporcionalmente el costo de cálculo.

📖

términos

Mezcla de Profundidades (Mixture-of-Depths)

Variante de la arquitectura MoE donde el enrutamiento se realiza no entre expertos distintos, sino entre diferentes profundidades de una misma red de transformadores, activando selectivamente capas.

📖

términos

MoE Dispersos (Sparse MoE)

Implementación de Mixture of Experts donde solo una fracción de los expertos es activada para cada token, lo que permite aumentar masivamente el número de parámetros del modelo mientras se mantiene el costo de inferencia constante por token.

📖

términos

MoE Denses (Dense MoE)

Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.

📖

términos

Équilibrage de Charge (Load Balancing)

Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.

📖

términos

Mélange d'Adaptateurs (Mixture of Adapters)

Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.

📖

términos

Expertise Conditionnelle (Conditional Computation)

Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.

📖

términos

Bruit de Gating (Gating Noise)

Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.

📖

términos

Mélange de Softmax (Mixture of Softmaxes)

Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.

📖

términos

Coût de Routage (Routing Cost)

Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.

📖

términos

Mélange de Têtes (Mixture of Heads)

Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.

Glosario IA

Red de Gating (Gating Network)

Experto

Top-k Gating

Mecanismo de Enrutamiento

Pérdida Auxiliar (Auxiliary Loss)

Sobrecapacidad (Overcapacity)

Mezcla de Profundidades (Mixture-of-Depths)

MoE Dispersos (Sparse MoE)

MoE Denses (Dense MoE)

Équilibrage de Charge (Load Balancing)

Mélange d'Adaptateurs (Mixture of Adapters)

Expertise Conditionnelle (Conditional Computation)

Bruit de Gating (Gating Noise)

Mélange de Softmax (Mixture of Softmaxes)

Coût de Routage (Routing Cost)

Mélange de Têtes (Mixture of Heads)

No se encontraron resultados