スパースアテンション

📖

用語

Longformer

スライディングウィンドウによるローカルアテンションとグローバルアテンションの組み合わせを使用して、線形計算量で非常に長いシーケンスを効率的に処理するTransformerアーキテクチャ。

📖

用語

BigBird

ローカル、グローバル、ランダムの3つのパターンによるスパースアテンションを実装し、普遍的な特性を理論的に保持しながら4096トークンまでのシーケンス処理を可能にするモデル。

📖

用語

Sliding Window Attention

各トークンがスライディングウィンドウ内の固定数の近傍にのみ注意を払う技術で、計算量をO(n*w)（wはウィンドウサイズ）に削減します。

📖

用語

Dilated Sliding Window

計算量を増やすことなく受容野を拡大するためにジャンプ（拡張）を使用する、スライディングウィンドウアテンションの変形。

📖

用語

Global Attention

特定の事前定義されたトークン（[CLS]トークンなど）がすべての他のトークンの注意を引くことができ、シーケンス全体にわたる情報伝播を可能にするメカニズム。

📖

用語

Random Attention

各トークンが遠隔トークンのサブセットにランダムに注意を向け、低い計算コストで長距離接続を維持するアプローチ。

📖

用語

Pattern-based Attention

どのクエリ-キーペアを計算するかを決定するために、事前定義されたスパースアテンションパターン（固定パターンまたは学習パターンなど）を適用する戦略。

📖

用語

Linear Complexity Attention

アルゴリズムの計算量をO(n²)からO(n)に削減し、非常に長いシーケンスのスケーラビリティを可能にするアテンションメソッドのクラス。

📖

用語

カーネルベースアテンション

ソフトマックスアテンションをカーネルで近似するアプローチで、FAVOR+（Positive Orthogonal Random Featuresによる高速アテンション）などの技術を介して線形計算量の計算を可能にします。

📖

用語

低ランク近似

アテンション行列を低ランク分解で近似する技術で、メモリと計算の必要性を大幅に削減します。

📖

用語

クラスタリングベースアテンション

まずトークンを類似クラスターにグループ化し、次にクラスター単位でアテンションを適用する方法で、必要な計算数を削減します。

📖

用語

ルーティングアテンション

コンテンツベースのルーティング関数を使用して、クエリを最も関連性の高いキーにルーティングするよう学習するメカニズムで、不要な計算を回避します。

📖

用語

Reformer

局所性感受性ハッシュ（LSH）を使用してアテンション計算を最も類似したペアに限定し、系列長に対して準線形の計算量を持つアーキテクチャです。

📖

用語

Performer

FAVOR+アテンションベースのモデルで、正の直交ランダム特徴量を介してソフトマックスアテンションを効率的に近似し、線形計算量を実現します。

📖

用語

Linformer

キー値行列を低次元空間に射影し、計算量をO(n²)からO(n*k)（k << n）に変換するアーキテクチャです。

📖

用語

ルーティングTransformer

k-meansベースのルーティングを使用してトークンをグループ化し、選択的にアテンションを適用するモデルで、長距離依存関係の計算を最適化します。

📖

用語

シンクホーンソーティング

シンクホーンの反復を用いてアテンションを微分可能な置換に変換するアルゴリズムで、スパースアテンションアーキテクチャに応用される。

📖

用語

効率的アテンション

Transformerのモデリング能力を保ちつつ計算量を削減することを目的とする、すべてのアテンション変種を包含するパラダイム。

AI用語集