AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
マスク画像モデリング (MIM)
画像の一部をマスクし、周囲の視覚的コンテキストのみを用いてそれらを再構築することを学習する自己教師あり学習手法。
用語
Vision Transformer (ViT)
画像をシーケンシャルなパッチに分割して処理し、Transformerのアテンション機構を画像に適用するニューラルアーキテクチャ。
用語
マスクトークン
NLPの[MASK]と同様に、モデルが予測すべきマスクされた位置を示すためにMIMで使用される特別なトークン。
用語
トークン予測
画像内のマスクされていない文脈的な視覚トークンに基づいて、欠落している視覚トークンを予測する基本的なタスク。
用語
文脈学習
マスクされた領域の予測を向上させるために、画像パッチ間の空間的および意味的関係を理解するモデルの能力。
用語
パッチマスキング戦略
表現の学習を最適化するために、画像のどの領域をマスクするか(割合、空間分布)を定義する戦略。
用語
視覚的コンテキスト
画像内のマスクされた領域の内容を推論するために使用される、周囲の視覚情報の集合。
用語
下流タスク
事前学習後に、MIMを通じて学習された表現が適用される特定のタスク(分類、セグメンテーション、検出など)。
🔍