Mixture of Experts - AI用語集

📖

用語

ゲーティングネットワーク

MoEアーキテクチャ内のニューラルサブネットワークで、各エキスパートの活性化重みを計算する役割を担い、通常はソフトマックス関数を使用してエキスパート上の確率分布を生成する。

📖

用語

エキスパート

MoEアーキテクチャ内の個々のサブモデルで、通常はニューラルネットワークであり、入力データ分布の特定の部分空間に特化するように訓練される。

📖

用語

トップkゲーティング

活性化重みが最も高いk個のエキスパートのみが特定の入力に対して活性化されるゲーティング戦略で、計算コストを削減しながらモデルの性能を維持する。

📖

用語

ルーティングメカニズム

MoEモデルにおいて、トークンや入力サンプルが異なるエキスパートにどのように割り当てられるかを決定するアルゴリズム的プロセスで、効率性と負荷分散に直接影響を与える。

📖

用語

補助損失

MoEモデルの全体損失関数に追加される正則化項で、エキスパート間のトラフィック分散を均衡化し、少数のエキスパートによる支配を防ぐ。

📖

用語

オーバーキャパシティ

MoEモデルにおいて、活性化されたエキスパートの総容量が標準的な密なモデルを上回る現象で、計算コストを比例的に増加させずにパラメータ数の効率的なスケーリングを可能にする。

📖

用語

深さの混合

異なるエキスパート間ではなく、同じトランスフォーマーネットワークの異なる深さ間でルーティングが行われるMoEアーキテクチャの変種で、層を選択的に活性化する。

📖

用語

スパースMoE

各トークンに対してエキスパートの一部のみが活性化されるMixture of Expertsの実装で、トークンあたりの推論コストを一定に保ちながら、モデルのパラメータ数を大幅に増加させることを可能にする。

📖

用語

MoE Denses (Dense MoE)

ゲーティングネットワークによって重み付けされ、すべての専門家が最終出力に貢献するMoEアーキテクチャの変種。疎なバージョンが一部の専門家のみを活性化するのとは対照的。

📖

用語

負荷分散 (Load Balancing)

MoEモデルの学習における重要な課題。各専門家がほぼ均等な量の学習データを受け取り、利用不足や過度の特化を防ぐことを目指す。

📖

用語

アダプタの混合 (Mixture of Adapters)

MoEの原理をアダプタに適用したもの。事前学習済みベースモデルに挿入される小さなパラメトリックモジュールであり、ゲーティングネットワークが最も関連性の高いアダプタを選択・結合する。

📖

用語

条件付き計算 (Conditional Computation)

MoEモデルの基本原理。計算（専門家の活性化）が入力によって条件付けられ、計算リソースの動的かつ効率的な利用を可能にする。

📖

用語

ゲーティングノイズ (Gating Noise)

ソフトマックス関数適用前にゲーティングネットワークのロジットにランダムノイズ（例：ガウシアンノイズ）を追加する正則化技術。探索を促進し、ルーティングの堅牢性を向上させる。

📖

用語

ソフトマックスの混合 (Mixture of Softmaxes)

専門家が個別のソフトマックス層であるMoEの特殊化。特に自然言語処理において複雑な多峰性分布をモデル化するために使用される。

📖

用語

ルーティングコスト (Routing Cost)

ゲーティングネットワークの評価と選択された専門家へのデータ転送に関連する計算上のオーバーヘッド。効率的なMoEモデル設計における重要な要素。

📖

用語

ヘッドの混合 (Mixture of Heads)

MoEパラダイムをトランスフォーマーのマルチヘッドアテンションメカニズムに適用したもの。ゲーティングネットワークが特定の入力に対して活性化するアテンションヘッドのサブセットを選択する。

AI用語集