マルチモーダルトランスフォーマー

📖

用語

マルチモーダルトランスフォーマー

テキスト、画像、音声などの複数のモダリティを同時に処理できる拡張トランスフォーマーアーキテクチャで、クロスアテンションメカニズムを使用してモーダル間の情報を統合します。

📖

用語

ビジョンランゲージトランスフォーマー

視覚的コンテンツとテキストコンテンツを共同で理解・生成するために特別に設計されたトランスフォーマーアーキテクチャで、各モダリティに対して共有または分離されたエンコーダーを使用します。

📖

用語

融合メカニズム

ネットワークの1つまたは複数のレベルで異なるモダリティの表現を効果的に組み合わせるためのアルゴリズム戦略で、早期融合、遅期融合、または階層的融合を含みます。

📖

用語

モダリティ埋め込み

元のモダリティ（テキスト、画像、音声）を示すためにトークン埋め込みに追加される特定のエンコーディングベクトルで、トランスフォーマーが各タイプのデータを区別して異なる方法で処理できるようにします。

📖

用語

CLIP

コントラストティブ言語画像事前学習モデルで、4億の画像-テキストペアで学習され、ビジョンと言語間の共有表現を学習するためにコントラストティブ目的を使用します。

📖

用語

VLP

ビジョンランゲージ事前学習モデルのファミリーで、両方のモダリティに共有トランスフォーマーエンコーダーを使用し、マスクモデリングや画像-テキスト予測などの事前学習タスクを含みます。

📖

用語

統合エンコーダー-デコーダー

同じエンコーダーがすべての入力モダリティを処理し、デコーダーが出力を生成するトランスフォーマーアーキテクチャで、VQA、キャプション生成、検索などのタスクを単一モデルで可能にします。

📖

用語

モダリティギャップ

異なるモダリティの表現空間間に存在する構造的・意味的な差異で、マルチモーダルモデルでは特定のアライメントメカニズムが必要となります。

📖

用語

マルチモーダル融合

異なるモダリティからの特徴量を統一された表現に統合するプロセスで、モーダル間の相補性を活用して複雑なタスクでの性能を向上させる。

📖

用語

クロスモーダルアライメント

異なるモダリティの表現を共有空間で意味的に揃えることを目指す学習目的で、視覚的・言語的概念間の対応を可能にする。

📖

用語

Perceiver IO

入力データと学習された潜在変数のセット間のクロスアテンションネットワークを使用して、あらゆるモダリティの組み合わせを処理できる汎用的なトランスフォーマーアーキテクチャ。

📖

用語

Flamingoモデル

事前学習済みアダプターとアテンショナルゲーティングを使用して、完全な再学習なしでVision Transformersと言語モデルを効率的に組み合わせる800億パラメータのビジョン・言語モデル。

📖

用語

BLIP

ノイズをフィルタリングしデータ品質を向上させるために疑似キャプションを生成するBootstrapping Language-Image Pre-trainingフレームワークで、マルチモーダルエンコーダーと画像-テキストデコーダーを使用する。

📖

用語

CoCa

表現学習のためのコントラスト的目標とキャプション生成のための生成的目標を単一の統合されたトランスフォーマーアーキテクチャで組み合わせるContrastive Captionersモデル。

📖

用語

BEiT-3

モダリティ固有の埋め込みを持つマルチウェイトランスフォーマーを使用して、画像、テキスト、および画像-テキストを統一的に処理するBidirectional Encoder representation from Image Transformer v3モデル。

📖

用語

LayoutLM

フォームや請求書などの構造化されたドキュメントの理解のために、2D空間レイアウト、テキスト、視覚情報を組み合わせた文書で事前学習されたモデルファミリー。

📖

用語

UniPerceiver

多様なマルチモーダルタスクを統一されたトークン生成問題として扱い、分類、検出、生成のために単一のTransformerモデルを使用する汎用認知フレームワーク。

📖

用語

GIT

画像を外国語として扱い、画像キャプションとVQA（視覚的質問応答）のために単純なエンコーダ-デコーダアーキテクチャを使用し、最先端の性能を発揮するGenerative Image-to-text Transformerモデル。

AI用語集