Mixture of Experts
MoE Éparses (Sparse MoE)
Implémentation de Mixture of Experts où seule une fraction des experts est activée pour chaque token, ce qui permet d'augmenter massivement le nombre de paramètres du modèle tout en gardant le coût d'inférence constant par token.
← Terug