マルチモーダルトランスフォーマー

📖

用語

ALBEF (Align Before Fuse)

共有空間でテキストと画像の表現を融合する前にまず整列させ、モメンタム蒸留を使用して性能を向上させる革新的なアーキテクチャ。

📖

用語

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

自然言語で変調されたエンドツーエンドの物体検出アーキテクチャで、複雑なテキストクエリを使用して画像内の物体を特定・識別することができます。

📖

用語

UNITER (UNiversal Image-TExt Representation)

普遍的なビジョン言語理解のために、4つの主要なマルチモーダルタスク（画像テキストマッチング、マスク言語モデリング、マスク領域モデリング、単語領域マッチング）で事前学習されたモデル。

📖

用語

VILLA (Vision-and-Language Large-scale model)

クロスマスク事前学習を使用し、統一されたTransformerアーキテクチャでビジョン言語理解タスクのために事前学習された大規模モデル。

📖

用語

FLAVA (Foundational Language and Vision Alignment)

シンプルなTransformerアーキテクチャを持つ統合マルチモーダル基盤モデルで、テキストのみ、画像のみ、マルチモーダルデータで同時に事前学習されています。

📖

用語

Oscar (Object-Semantics Aligned Pre-training)

検出されたオブジェクトラベルをセマンティックアンカーとして導入し、テキストと画像を整列させる事前学習アプローチで、マルチモーダル理解を大幅に向上させます。

📖

用語

VinVL (Vision and Language Pre-training with enhanced Visual features)

大規模な物体検出器と属性で視覚特徴を強化し、V+Lベンチマークで最先端の性能を達成するフレームワーク。

📖

用語

BridgeTower

単一モーダルエンコーダ間にブリッジを導入し、モダリティ間の深い相互作用を促進し、異なるスケールでテキスト画像情報交換を最適化するアーキテクチャ。

📖

用語

Pix2Struct

スクリーンショット解析タスクで事前学習されたTransformerモデルで、ユーザーインターフェース、図表、視覚的に構造化された文書の理解に優れています。

📖

用語

PaLI (Pathways Language and Image model)

Pathwaysに基づく大規模マルチモーダルモデルで、視覚的翻訳や視覚的質問応答タスクのために画像エンコーダーとテキストエンコーダー-デコーダーを組み合わせています。

AI用語集