Mixture of Experts
スパースMoE
各トークンに対してエキスパートの一部のみが活性化されるMixture of Expertsの実装で、トークンあたりの推論コストを一定に保ちながら、モデルのパラメータ数を大幅に増加させることを可能にする。
← 戻る各トークンに対してエキスパートの一部のみが活性化されるMixture of Expertsの実装で、トークンあたりの推論コストを一定に保ちながら、モデルのパラメータ数を大幅に増加させることを可能にする。
← 戻る