ビジョントランスフォーマー

📖

用語

画像を規則的なグリッド状の小さな正方形のセクション（通常16x16ピクセル）に分割し、ViTによってシーケンシャルトークンとして処理する手法。

📖

用語

画像を離散的なトークンのシーケンスに分割するプロセスであり、当初テキスト用に設計されたトランスフォーマーアーキテクチャを視覚データに適応させるための基本的な手法。

📖

用語

蒸留戦略を用いてトレーニングされ、少ないトレーニングデータで競争力のある性能を達成するVision Transformerの変種。

📖

用語

画像のマルチスケール表現を維持するトランスフォーマーアーキテクチャであり、従来のCNNの利点とトランスフォーマーの柔軟性を組み合わせたもの。

📖

用語

深層モデルの収束を改善し、トレーニングを安定化させるために、トランスフォーマー層の残差に適用される正規化手法。

📖

用語

異なるモダリティや表現間のクロスアテンションメカニズムを利用するアーキテクチャで、特徴間のより豊かな相互作用を可能にする。

📖

用語

画像全体ではなく局所的なウィンドウに制限されたアテンションの変種で、重要な局所的な関係を捉えつつ計算の複雑さを低減する。

AI用語集