Mixture of Experts
Surcapacité (Overcapacity)
Phénomène dans les modèles MoE où la capacité totale des experts activés dépasse celle d'un modèle dense standard, permettant une mise à l'échelle efficace du nombre de paramètres sans augmenter proportionnellement le coût de calcul.
← Zurück