マルチモーダルの解釈可能性

📖

用語

マルチモーダル属性の融合

異なるモダリティ（テキスト、画像、音声）から得られる特徴を学習モデルのための統一された表現に組み合わせるプロセスであり、データソース間の複雑な相互作用を捉えることを目的とする。

📖

用語

投影による説明

複雑なモダリティ（例：画像）の貢献を、よりシンプルで解釈可能な空間（例：キーワードや概念）に投影して、モデルの予測に対する影響を説明する解釈可能性の手法。

📖

用語

マルチモーダル顕著性マップ

モデルの特定の決定に対して、各モダリティ（画像のピクセル、テキストの単語、オーディオセグメント）の最も影響力のある領域やセグメントを強調する可視化であり、通常、元のデータに貢献度を重ねて表示する。

📖

用語

モダリティ間のセマンティックアラインメント

異なるモダリティの要素間（例：単語と画像領域、または音声とアクション）のセマンティックな対応関係を確立する技術であり、モデルが関係を理解し、一貫性のある説明を提供するために重要。

📖

用語

モダリティ別分解

各入力モダリティの最終的な予測への個別の貢献を分離し、定量化する解釈可能性アプローチであり、決定が主にテキスト、画像、または音声によって導かれているかを理解できるようにする。

📖

用語

マルチモーダル概念ボトルネック

最終的な予測がモダリティの融合から推論された解釈可能な概念のセットによって条件付けられるモデルアーキテクチャであり、生データから概念、そして決定への明確なトレーサビリティを提供する。

📖

用語

直交性正則化

共有潜在空間における異なるモダリティの表現を可能な限り独立にするために、学習中に適用される制約であり、冗長性を避け、モダリティごとの説明の明確性を向上させる。

📖

用語

マルチモーダル反実説明

1つ以上のモダリティを変更することでモデルの予測を反転させるのに十分な変更例を生成し、決定に必要な最小限の条件とモダリティ間の相互作用を理解するのに役立つ。

📖

用語

解釈可能性のための遅延融合

各モダリティが中間的な決定に至るまで専門モデルによって処理され、その後結果が融合される戦略。このアプローチは、最終的な組み合わせの前に各モダリティのロジックを分離することで解釈を容易にします。

📖

用語

基本的なビジョン-言語モデル

大規模なテキストデータと視覚データのコーパスで事前学習された大規模モデルで、これら2つのモダリティからコンテンツを理解・生成する能力を持つ。その固有の複雑さにより、解釈可能性は大きな課題となっている。

📖

用語

モーダル役割分析

異なるタスクや文脈において各モダリティが果たす役割を体系的に評価し、モダリティが文脈的サポート、主要情報源、または他のモダリティに対する修飾子として機能するかを判断する。

📖

用語

視覚言語グラウンディング

言語シンボル（単語、フレーズ）を視覚データ内の具体的なエンティティや概念に固定するプロセス。テキストと画像を結びつけるモデルの説明が意味的に正しく、理解可能であるために不可欠。

📖

用語

融合ノードによる解釈可能性

マルチモーダル情報の融合が行われる特定のニューロンまたは層の分析に焦点を当てる方法。相互作用がどのようにエンコードされ、モデルの出力にどのように影響するかを理解する。

📖

用語

交差勾配による説明

モデルの出力の勾配をあるモダリティの特性に対して計算する解釈可能性技術で、この計算を別のモダリティの特性に条件付け、モダリティ間の依存関係を明らかにする。

AI用語集