AI用語集
人工知能の完全辞典
DETR (検出トランスフォーマー)
オブジェクト検出を直接的な集合予測問題として扱い、アンカーと非最大抑制の必要性を排除する先駆的アーキテクチャ。二部トランスフォーマーを使用してオブジェクト間の関係をモデル化する。
二部トランスフォーマー
アテンションメカニズムが画像特徴と学習可能な小さな固定のオブジェクトクエリセットの間に適用されるトランスフォーマーアーキテクチャの変種で、オブジェクトの並列予測を可能にする。
オブジェクトクエリ
各潜在的なオブジェクト予測のスロットとして機能する学習可能な位置埋め込みベクトル。アテンションメカニズムを介して画像特徴と相互作用し、関連情報を抽出する。
二部マッチング損失
ハンガリアンアルゴリズムに基づく損失関数で、モデルの予測とグラウンドトゥルース間の最適な一対一のマッチングを見つけ、教師なし予測の順列問題を解決する。
エンコーダ-デコーダートランスフォーマー
エンコーダが画像特徴を処理して文脈豊かな表現を作成し、デコーダがオブジェクトクエリを使用してこの表現を最終的なボックスとクラスの予測にデコードする構造。
マルチスケールマルチヘッドアテンション (MSA)
複数の特徴マップレベルからの融合特徴上で動作するアテンションメカニズムで、様々なサイズのオブジェクトの検出のために局所的およびグローバルな情報を同時にキャプチャできるようにする。
DETR-ResNet
CNNを特徴抽出とトランスフォーマーのグローバル推論と組み合わせるために、畳み込みニューラルネットワークResNetを主要な特徴抽出器として使用するDETRの変種。
Mask2Former
トランスフォーマーを使用して関心領域をマスクし、マスクを直接予測することで、パノプティック、インスタンス、セマンティックセグメンテーションのための統一アーキテクチャ。精度とシンプルさの点で以前のアプローチを上回る。
位置埋め込み
Transformerに空間情報を提供するために画像の特徴量に追加されるベクトル。モデルがシーンの幾何学を理解し、オブジェクトを正確に位置特定するために不可欠。
Conditional DETR
オブジェクトクエリを画像内容に条件付けることで収束を加速させるDETRの改良版。クエリのより良い専門化とより正確な予測を可能にする。
Deformable DETR
変形可能なアテンションモジュールを統合し、少数の重要なポイントセットに集中することで、収束速度と性能を大幅に向上させるDETRの変種。特に小さなオブジェクトに対して効果的。
Sparse R-CNN
学習可能な固定数の提案ボックスセットとTransformerのカスケードを使用して予測を微調整する、完全にスパースな検出アプローチ。アンカーやNMSなどのヒューリスティックを不要にする。
Query-to-Attention
オブジェクトクエリがモデルの注意を画像の関連領域に誘導するメカニズム。グローバルなアテンションとは対照的に、予測の効率と専門化を向上させる。
DINO (改善されたノイズ除去アンカーボックス付きDETR)
改善されたノイズ除去アンカーボックスとTransformerアーキテクチャを組み合わせた最先端モデル。NMSを必要とせずに検索ベンチマークで最先端の性能を達成。
Transformerのためのフォーカル損失
困難なサンプルに集中し、うまく分類された簡単なサンプルの寄与を減らすことで、DETRモデルの遅い収束問題を解決するために設計された損失関数。
Transformerによるパノプティックセグメンテーション
パノプティックセグメンテーションの統一されたタスクにTransformerアーキテクチャを適用すること。単一のエンドツーエンドモデルを使用して、物と背景の両方に対してセマンティックマスクを同時に予測。
Mamba-DETR
Mambaにインスパイアされたステートスペースブロック(State Space Blocks)で注意メカニズムを置き換える検出アーキテクチャで、線形複雑性とリアルタイムオブジェクト検出のための競争力のある性能を提供します。