Glosario IA
El diccionario completo de la Inteligencia Artificial
Red de Gating (Gating Network)
Subred neuronal dentro de una arquitectura MoE responsable del cálculo de los pesos de activación para cada experto, generalmente utilizando una función softmax para generar una distribución de probabilidad sobre los expertos.
Experto
Submodelo individual dentro de una arquitectura MoE, típicamente una red neuronal, entrenado para especializarse en un subespacio particular de la distribución de los datos de entrada.
Top-k Gating
Estrategia de gating donde solo los k expertos con los pesos de activación más altos son activados para una entrada dada, reduciendo así el costo computacional mientras se mantiene el rendimiento del modelo.
Mecanismo de Enrutamiento
Proceso algorítmico que determina cómo los tokens o ejemplos de entrada son asignados a los diferentes expertos en un modelo MoE, influenciando directamente la eficiencia y el equilibrio de la carga.
Pérdida Auxiliar (Auxiliary Loss)
Término de regularización agregado a la función de pérdida global de un modelo MoE para fomentar una distribución equilibrada del tráfico entre los expertos, evitando así que un pequeño subconjunto de expertos domine.
Sobrecapacidad (Overcapacity)
Fenómeno en los modelos MoE donde la capacidad total de los expertos activados excede la de un modelo denso estándar, permitiendo una escalada eficiente del número de parámetros sin aumentar proporcionalmente el costo de cálculo.
Mezcla de Profundidades (Mixture-of-Depths)
Variante de la arquitectura MoE donde el enrutamiento se realiza no entre expertos distintos, sino entre diferentes profundidades de una misma red de transformadores, activando selectivamente capas.
MoE Dispersos (Sparse MoE)
Implementación de Mixture of Experts donde solo una fracción de los expertos es activada para cada token, lo que permite aumentar masivamente el número de parámetros del modelo mientras se mantiene el costo de inferencia constante por token.
MoE Denses (Dense MoE)
Variante de l'architecture MoE où tous les experts contribuent à la sortie finale, pondérés par le réseau de gating, contrairement aux versions éparse qui n'en activent qu'un sous-ensemble.
Équilibrage de Charge (Load Balancing)
Enjeu critique dans l'entraînement des modèles MoE, visant à assurer que chaque expert reçoive une quantité approximativement égale de données d'entraînement pour éviter une sous-utilisation ou une sur-spécialisation.
Mélange d'Adaptateurs (Mixture of Adapters)
Application du principe MoE aux adaptateurs, de petits modules paramétriques insérés dans un modèle de base pré-entraîné, où un réseau de gating sélectionne et combine les adaptateurs les plus pertinents.
Expertise Conditionnelle (Conditional Computation)
Principe fondamental des modèles MoE, selon lequel les calculs (l'activation des experts) sont conditionnés par l'entrée, permettant une utilisation dynamique et efficace des ressources computationnelles.
Bruit de Gating (Gating Noise)
Technique de régularisation consistant à ajouter un bruit aléatoire (par exemple, un bruit gaussien) aux logits du réseau de gating avant l'application de la fonction softmax pour encourager l'exploration et améliorer la robustesse du routage.
Mélange de Softmax (Mixture of Softmaxes)
Spécialisation du MoE où les experts sont des couches de softmax distinctes, utilisée pour modéliser des distributions multimodales complexes, notamment en traitement du langage naturel.
Coût de Routage (Routing Cost)
Surcharge computationnelle associée à l'évaluation du réseau de gating et à l'acheminement des données vers les experts sélectionnés, un facteur clé dans la conception de modèles MoE efficaces.
Mélange de Têtes (Mixture of Heads)
Application du paradigme MoE au mécanisme d'attention multi-têtes des transformateurs, où un réseau de gating sélectionne un sous-ensemble de têtes d'attention à activer pour une entrée donnée.