ビジョントランスフォーマー (ViT)

📖

用語

マルチヘッド自己注意

モデルが複数の注意行列を並列に計算することで、画像の異なる部分に同時に集中し、様々な空間的関係を捉えるメカニズム。

📖

用語

レイヤースケール

深いViTにおいて導入された正則化技術で、学習可能な重みが残差出力に適用され、初期層の学習を安定化させます。

📖

用語

ウィンドウ型注意

画像の重複しない局所的なウィンドウに限定された注意メカニズムで、計算量をO(n²)からO(n)に削減します（nはパッチの数）。

📖

用語

シフトウィンドウ注意

層間で注意ウィンドウをシフトし、クロスウィンドウ接続を可能にする技術で、モデルの長距離関係のモデリング能力を向上させます。

📖

用語

DeiT (Data-efficient Image Transformer)

蒸留知識戦略により、より少量のデータで学習可能なViTの変種で、蒸留トークンが追加されCNN教師から学習します。

📖

用語

蒸留トークン

DeiTにおける追加のトークンで、教師モデル（通常CNN）の予測を模倣し、知識転送を容易にし、少ないデータで性能を向上させます。

📖

用語

マスク自己符号化器

ViTのための自己教師ありアプローチで、画像のランダムなパッチ（最大75%）をマスクし、モデルに再構築を学習させ、驚くべき学習能力を明らかにします。

📖

用語

パッチマージング

階層的トランスフォーマーにおける操作で、隣接する2x2パッチのグループを組み合わせて低解像度のトークンを作成し、深さと受容野を増大させます。

📖

用語

相対位置バイアス

パッチの相対位置に依存する注意スコアに追加されるバイアスで、絶対位置エンコーディングなしで空間的関係を理解するモデルの能力を向上させます。

📖

用語

ハイブリッドアーキテクチャ

特徴抽出の初期畳み込みネットワークとグローバル処理のためのトランスフォーマーを組み合わせるアプローチで、ViTの初期実装でデータ要件を削減するために使用されました。

📖

用語

トークンラベリング

画像ごとに1つのラベルではなく、各パッチが教師付きラベルを受ける学習戦略で、モデルがより豊かで局所的な表現を学習するよう強制します。

AI用語集