ビジョントランスフォーマー

📖

用語

MLP Head

通常、活性化関数を持つ全結合層と、その後に続くクラス予測用の出力層から構成される最終分類モジュール。MLPヘッドは、クラス・トークンの最終的な表現を処理し、各可能なクラスに対する分類スコアを生成します。

📖

用語

Patch Size

入力画像が分割される正方形の空間次元で、標準的なViTアーキテクチャでは通常16x16または32x32ピクセルです。パッチサイズは、生成されるトークンの数とモデルが保持する空間情報の粒度に直接影響します。

📖

用語

Image Tokenization

パッチへの分割と線形射影を含み、2D画像をTransformerが処理可能な1Dトークンのシーケンスに変換するプロセス。このトークン化は、本来テキスト用に設計されたTransformerアーキテクチャをビジョンの分野に適応させるための重要なステップです。

📖

用語

Scale-Invariant Features

画像内のオブジェクトのスケール変化に対して堅牢な、Vision Transformersによって抽出される特徴。これらの特性は、パッチ間の長距離関係をモデル化する能力により、Transformerのグローバルなアーキテクチャから自然に生じます。

📖

用語

Token-to-Token ViT (T2T-ViT)

反復的なトークン化プロセスを使用して、パッチをより情報量の多いトークンに徐々に変換するVision Transformerの変種。このアプローチにより、局所構造のモデル化が向上し、空間解像度が段階的に削減されるため、計算効率が向上します。

📖

用語

Pyramid Vision Transformer (PVT)

CNNの特徴ピラミッドに似て、異なるスケールで特徴マップを生成する階層的なTransformerアーキテクチャ。PVTは、マルチスケール表現を必要とするセマンティックセグメンテーションや物体検出などの密なビジョンタスクに特に適しています。

📖

用語

Swin Transformer

シフトされたウィンドウベースの注意機構を持ち、線形計算量で局所的およびグローバルな関係を効率的にモデル化できる階層的なTransformerアーキテクチャ。Swin Transformerはマルチスケール接続を導入し、幅広いビジョンタスクで優れたパフォーマンスを示しています。

📖

用語

DeiT (Data-efficient Image Transformers)

より少ないトレーニングデータで競争力のあるパフォーマンスを達成するために、知識蒸留戦略を用いてトレーニングされたVision Transformerの変種。DeiTは、教師CNNの予測から学習する追加の蒸留トークンを導入し、それによって大規模データに基づくアプローチとの性能ギャップを縮めます。

📖

用語

マスク付きオートエンコーダ (MAE)

残りの可視パッチからマスクされた画像パッチを再構築することによって、Vision Transformers（ViT）が学習する自己教師あり学習の事前トレーニングアプローチです。このシンプルだが効果的な手法は、計算リソースを非常に効率的に利用しながら、事前トレーニングにおいて最先端のパフォーマンスを達成します。

AI用語集