マルチモーダルQA

📖

用語

クロスモーダリティ

テキストや画像などの異なるモダリティからの情報を理解し、関連付けて、文脈理解を深めるシステムの能力。

📖

用語

Vision-Language Transformer (VLT)

マルチモーダルな理解と生成タスクのために設計された、画像とテキストのペアからなる大規模なコーパスで事前学習されたTransformerアーキテクチャ。

📖

用語

視覚的推論

画像内の空間的関係、オブジェクトの属性、または複雑なシーンを分析することにより、明示的ではない情報を推論するQAシステムの能力。

📖

用語

ビジュアルグラウンディング

言語的概念（単語、フレーズ）を画像や動画内の特定のエンティティまたは領域にアンカー（紐付け）し、具体的な意味的リンクを作成するアクション。

📖

用語

モダリティ間アライメント

あるモダリティのセグメント（例：文）を、別のモダリティの関連するセグメント（例：画像領域）と対応させる学習プロセス。

📖

用語

ベクトル量子化コードブック (VQ)

連続的な表現（例：画像）を有限の離散トークンの集合に離散化し、言語モデルによる処理を容易にするためにマルチモーダルモデルで使用される手法。

📖

用語

マルチモーダルパーセプトロン (MLP)

複数のモダリティから融合された特徴を入力として受け取り、最終的な分類または回帰タスクを実行するニューラルネットワーク（多くの場合MLP）。

📖

用語

ツーストリーム融合モデル

各モダリティが、共通の意思決定を行うために表現が結合される前に、個別のニューラルネットワーク（ストリーム）で処理されるアーキテクチャ。

📖

用語

マルチモーダル情報検索

別のモダリティ（例：テキスト）のクエリから、共有埋め込み空間における類似性に基づいて、関連するドキュメント（例：画像）を検索するタスク。

📖

用語

条件付き応答生成

画像のような非テキストモダリティから抽出された情報に基づいて、内容が条件付けられ、導かれるテキスト応答を言語モデルが生成するプロセス。

📖

用語

画像トークン化

Transformer型アーキテクチャと互換性を持たせるために、画像を離散的なトークンのシーケンスに変換するプロセス（通常、VAEまたはVQ-VAEを使用）。

AI用語集