Mixture of Experts
Top-k Gating
Stratégie de gating où seuls les k experts ayant les poids d'activation les plus élevés sont activés pour une entrée donnée, réduisant ainsi le coût computationnel tout en maintenant la performance du modèle.
← Geri