Transformerの最適化

📖

用語

パラメータ効率的ファインチューニング（PEFT）

事前学習済みモデルを適応させるための技術群で、計算コストを削減するためにパラメータのごく一部のみを修正します。

📖

用語

LoRA（低ランク適応）

Transformer層に低ランク行列を注入するPEFT手法で、元のパラメータのわずか0.1%のみで効率的なファインチューニングを実現します。

📖

用語

アダプター

Transformer層の間に挿入される軽量な神経モジュールで、元の重みを変更せずにモデルを新しいタスクに適応させるために独立して学習させます。

📖

用語

フラッシュアテンション

最新のGPU用に最適化されたアテンションの正確なアルゴリズム実装で、冗長なメモリ読み書きを排除して学習を高速化します。

📖

用語

動的トークン刈り込み

フォワードパス中に較的関連性の低いトークンを選択的に除去し、アテンションの計算複雑度を削減する適応的技術です。

📖

用語

ゼロ冗長オプティマイザー（ZeRO）

学習中のメモリ冗長性を排除するため、オプティマイザーの状態、勾配、パラメータを複数のGPUに分散させる最適化フレームワークです。

📖

用語

モデル並列処理

単一GPUのメモリを超えるモデルを扱うために、モデルの異なるコンポーネントを異なる計算デバイスに配置する分散戦略です。

📖

用語

パイプライン並列処理

モデル並列処理の一形態で、層を異なるGPUに分散させ、リソース利用を向上させるためにパイプラインで処理します。

📖

用語

テンソル並列処理

個々の重みテンソルを複数のGPUに分割し、単一デバイスのメモリよりも大きな層のトレーニングを可能にする並列化技術。

📖

用語

勾配蓄積

重みを更新する前に複数のフォワードパスにわたって勾配を蓄積することで、より大きなバッチサイズをシミュレートする方法。

📖

用語

層ごとの学習率減衰

層の深さに応じて異なる学習率を適用する最適化戦略。通常、上位層により高い学習率が適用される。

📖

用語

カリキュラム学習

難易度の順にサンプルを提示するトレーニングアプローチ。収束を加速させ、最終的な性能を向上させる。

📖

用語

エキスパート混合（MoE）

各トークンが専門化された専門家のサブセットによって処理されるアーキテクチャ。モデルの容量を線形なコスト増加なしで増やすことを可能にする。

📖

用語

可逆層

出力から活性化を再構築できるように設計されたTransformer層。中間の活性化を保存する必要をなくす。

📖

用語

勾配ノイズ注入

トレーニング中に勾配にガウスノイズを追加する正則化技術。一般化を改善し、非最適な局所最小値を回避する。

📖

用語

オプティマイザ状態シャーディング

オプティマイザの状態を複数のGPUに分割するメモリ分散方法。トレーニング中のメモリ使用量を大幅に削減する。

AI用語集