マルチモーダルモデル

📖

用語

異なるモダリティ（テキスト-画像、オーディオ-テキストなど）からの要素を関連付けて、文脈理解を豊かにするモデルのための注意機構。このアプローチは、各モダリティの特徴間で注意重みを計算し、関連する意味的相関を特定します。

📖

用語

1つ以上の異なるソースモダリティからの入力から、ターゲットモダリティでコンテンツを作成するAIモデルの能力。この変換により、例えばテキスト記述から画像を生成したり、ビデオからオーディオを作成したり、画像からテキストを合成したりすることができます。

📖

用語

複数のモダリティを同時に一貫したコンテンツを作成するために、拡散プロセスを組み合わせる生成的アプローチ。これらのモデルは、進行性ノイズとクロスモーダル条件を使用して、オーディオと同期したビデオや詳細な説明付きの画像などの複雑な出力を生成します。

📖

用語

共同学習された投影ネットワークを介して、異なるモダリティの表現を共通のベクトル空間にマッピングする技術。このアプローチはモダリティ間の直接比較を容易にし、クロスモーダル検索や条件付き生成などの操作を可能にします。

📖

用語

ポジティブなモダリティペア間の類似性を最大化しながら、ネガティブなペアの類似性を最小化するために、対照学習目標を使用するモデルのクラス。これらのモデルは、意味的に豊かな表現を学習する能力により、整列や検索タスクで優れた性能を発揮します。

📖

用語

複数のモダリティの重要な情報をコンパクトかつ解釈可能な方法でエンコードする低次元空間。これらの表現はクロスモーダル相関を捕捉しながらノイズをフィルタリングし、効率的な生成、分類、検索タスクを可能にします。

📖

用語

異種入力を処理するマルチモーダルエンコーダと、ターゲットモダリティで出力を生成するデコーダで構成されるアーキテクチャ。これらのモデルは、画像-テキスト変換やオーディオ-ビデオ合成などのクロスモーダルシーケンス間タスクで特に効果的です。

📖

用語

完全な再学習なしでマルチモーダル入力を効率的に処理するために、特定のモダリティで事前学習されたモデルを適応させるための軽量ニューラルモジュール。これらのコンポーネントは、ベースモデルの能力を維持しながら転移学習を容易にします。

AI用語集