Transformerアーキテクチャを用いた検出

📖

用語

クエリベース検出

学習されたクエリ（埋め込み）がアテンションメカニズムを介して画像特徴と相互作用し、物体のバウンディングボックスとクラスを直接予測する検出パラダイム。

📖

用語

オブジェクトクエリ

検出される可能性のある各物体の「スロット」として機能し、モデルを特定の予測へと導く、DETRアーキテクチャにおける位置学習ベクトル。

📖

用語

二部マッチング損失

ハンガリアンアルゴリズムを用いて予測とグランドトゥルース（正解）の間の最適な1対1のマッチングを見つけ、各物体に一意の割り当てを保証する、DETRで使用される損失関数。

📖

用語

マルチスケール特徴ピラミッド

様々なサイズの物体の検出を向上させるために、異なる解像度の特徴を組み合わせるトランスフォーマー検出器の構造。多くの場合、スケール間アテンションメカニズムを通じて行われる。

📖

用語

アンカーフリー検出

事前定義されたアンカーボックスの使用を排除し、バウンディングボックスを直接予測するトランスフォーマーアーキテクチャの主要な特徴である検出アプローチ。

📖

用語

セット予測

モデルが事前に定義された順序なしですべての物体を同時に予測する、順序付けられていない集合予測問題としての物体検出の定式化。

📖

用語

クラス不可知検出

物体の位置推定と分類が分離されているアプローチ。汎化性能を向上させるために、トランスフォーマー検出器でよく使用される。

📖

用語

Vision Transformer (ViT) バックボーン

画像の強力かつ文脈的な表現を提供する、トランスフォーマー検出器の特徴抽出器として事前学習済みのViTを使用すること。

📖

用語

DINO (DETR with Improved deNoising anchOr)

デノイズされたクエリとアンカーを組み合わせ、Transformer検出器のパフォーマンスと収束速度を向上させる高度な検出アーキテクチャ。

📖

用語

デノイズトレーニング

モデルがノイズ付加されたバージョンから正解ラベル（グランドトゥルース）を再構築することを学ぶトレーニング戦略であり、Transformer検出器のロバスト性と収束性を向上させる。

📖

用語

クエリ・ツー・インスタンス・アテンション

各オブジェクトクエリが画像内の特定のインスタンスの関連する特徴に集中する、専門化された注意機構。

📖

用語

1対多ラベル割り当て

一部のTransformer検出器における代替の割り当て戦略であり、トレーニングを向上させるために、1つの正解ラベル（グランドトゥルース）を複数の予測に割り当てることができる。

AI用語集