AI用語集
人工知能の完全辞典
マルチモーダル拡散
共有または調整された拡散プロセスを通じて、複数のモダリティ(テキスト、画像、音声)上の結合確率分布を学習する生成モデルのクラス。
統一潜在空間
異なるモダリティのデータが投影され、拡散モデル内での相互相互作用と変換を可能にする共通のベクトル表現。
クロスモーダル条件付け
あるモダリティの生成プロセスが別のモダリティの情報によって導かれる技術。例えば、テキストから画像を生成したり、画像から音声を生成したりする。
マルチモーダル構造化ノイズ
モーダル間の相関を保持するノイズ付加プロセス。拡散プロセス全体を通じて意味的整合性を維持するために、異なるモダリティを共同で劣化させる。
協調的ノイズ除去
各モダリティ専用のニューラルネットワークが情報を交換し、共有されたノイズ付加バージョンから一貫性のあるデータを再構築するノイズ除去ステップ。
マルチモーダルエンコーダ
異なるモダリティのデータを統一潜在空間に投影し、それらの本質的特徴と関係を捕捉するニューラルネットワーク。
マルチモーダルデコーダ
ノイズ除去プロセス後、統一潜在空間からの表現から各モダリティのデータを再構築するニューラルネットワーク。
モーダル間整合性
同じ概念を記述する異なるモダリティの潜在表現間の距離を最小化し、それらの意味的一貫性を保証する学習目標。
統一拡散モデル
単一の拡散プロセスと共有重みセットを使用して、複数のモダリティを同時に処理・生成する単一モデルアーキテクチャ
マルチモーダルガイダンス
マルチモーダル分類モデルの勾配を使用して、与えられた条件により良く整合した出力に向けてサンプリングプロセスを導く推論技術
マルチアーム拡散
中央の拡散プロセスが、共通の幹を共有しながら各モダリティ固有のノイズ付加と除去を処理する専門化された「アーム」を持つアーキテクチャ
マルチモーダル一貫性損失
生成されたモダリティ間の意味的不整合を罰する損失関数。例えば統一潜在空間におけるコサイン距離で測定
モダリティ間サンプリング
既存または同時生成された別のモダリティを条件として、1つのモダリティをサンプリングする生成プロセス
共有ノイズ予測ネットワーク
拡散モデルの中心コンポーネント(多くの場合U-Netアーキテクチャ)。下位層はモダリティ間で共有され、上位層は専門化されている
マルチモーダル時間埋め込み
モデルに注入される拡散プロセスのタイムステップ表現。ノイズダイナミクスの違いを扱うためにモダリティによって条件付けられることが多い
マルチモーダルシーケンス拡散
ビデオ生成(画像+時間)や同期対話(音声+テキスト)など、複数モダリティを含むシーケンシャルデータへの拡散の応用
マルチモーダルトークン化
拡散フレームワークにおけるTransformer型アーキテクチャで処理可能な統一トークンシーケンスへの異なるモダリティデータの離散化プロセス