マルチモーダルトランスフォーマー

📖

用語

テキスト、画像、音声、ビデオなど複数のモダリティからのデータを同時に処理し、共通の表現空間に統合するように設計されたトランスフォーマー型ニューラルネットワークアーキテクチャ

📖

用語

すべてのモダリティ（テキスト、画像など）の埋め込みが投影される単一の潜在ベクトル空間。これにより、直接的な意味的比較とマルチモーダル推論操作が可能になる

📖

用語

画像キャプション生成、VQA、テキストによる画像検索などのタスクに使用される、テキストと画像の共同理解に特化したマルチモーダルトランスフォーマーの特定クラス

📖

用語

コアテンショントランスフォーマーレイヤーによる融合前に、対照的事前学習を使用してテキストと画像の表現を整列させるビジョン・ランゲージモデル。相互作用の質を向上させる

📖

用語

元のモダリティに依存しない意味を捕捉するマルチモーダルモデルによって学習されたベクトル表現。例えば、テキストクエリから画像を検索することを可能にする

📖

用語

大規模で多様なデータ（テキスト、画像、音声など）で事前学習された大規模モデル。最小限の労力で幅広い下流タスクに適応（ファインチューニング）されるように設計されている

📖

用語

単一のトランスフォーマーアーキテクチャと統一されたシーケンス形式を使用して、広範な入力モダリティ（テキスト、画像、音声など）と出力モダリティ（テキスト生成、描画など）を処理する統一モデル

📖

用語

Vision Transformer（ViT）で普及した技術。画像が重複しないパッチのグリッドに分割され、各パッチが線形化され、トークンとして処理されるための埋め込みベクトルに投影される

📖

用語

複数のモダリティから得られる異なる目的（例：言語マスキング、画像予測、音声-テキストアラインメント）に対してモデルを同時に最適化し、ロバストな表現を学習する事前学習戦略。

AI用語集