AI用語集
人工知能の完全辞典
Vision Transformer (ViT)
画像をパッチのシーケンスに分割し、シーケンシャル処理のためにTransformerメカニズムを画像処理に適用するニューラルアーキテクチャ。
Patch Embedding
画像パッチを線形投影により固定次元の埋め込みベクトルに変換し、Transformerに入力するプロセス。
Class Token
埋め込みシーケンスに追加される特殊トークンで、Transformerを通過後の最終表現が画像分類に使用される。
Multi-Head Self-Attention
画像パッチ間の様々な関係を捉えるために、モデルが複数のアテンション表現を同時に計算できるようにするメカニズム。
Transformer Encoder
自己注意層とフィードフォワードネットワークで構成され、正規化と残差接続を交互に配置した基本的なブロック。
Image Patch Tokenization
画像を重複しない固定サイズ(通常16x16ピクセル)のパッチに分割し、その後シーケンシャルトークンに変換するプロセス。
Attention Map Visualization
モデルが注目する画像領域を理解するために、パッチ間のアテンション重みを可視化する解釈可能性の技術。
Pre-training on Large Datasets
ファインチューニングの前に、一般的な視覚表現を学習するためにImageNet-21kのような数百万の画像で初期トレーニングを行う段階。
パッチサイズハイパーパラメータ
画像パッチの次元を定義する重要なパラメータで、計算の複雑さとモデルの性能に直接影響を与えます。
トークンからパッチへの再構成
生成的タスクにおける逆プロセスで、トークンが画像パッチに再変換されて元の画像を再構築します。
階層的ビジョントランスフォーマー
可変パッチサイズを持つピラミッド構造を使用し、マルチスケールの特徴を捉えるViTの変種です。
自己教師ありViT事前学習
DINOやMAEのような教師なし学習手法で、Transformer構造を活用して注釈なしで学習します。
マルチモーダルViTにおけるクロスアテンション
異なるモダリティ間のアテンションを使用して、画像とテキストを共同処理するためにViTを拡張するメカニズムです。
計算複雑度 O(n²)
Vision Transformersの主な制限となるパッチ数に対する自己アテンションの二次的複雑さです。