マルチモーダルモデル

📖

用語

Vision-Language Model (VLM)

テキストと画像の同時理解を専門とするマルチモーダルモデルのサブクラスであり、画像キャプション生成、視覚的推論、テキストからの画像生成などのタスクが可能です。

📖

用語

Tokenisation Visuelle

画像をパッチや離散的なトークンのシーケンスに分割する技術。通常、Vision Transformer (ViT) などのニューラルネットワークを通じて行われ、テキストトランスフォーマーのアーキテクチャと互換性を持たせるために使用されます。

📖

用語

Modèle d'Alignement

CLIPのようなコントラスト学習に基づくモデルで、大量の（画像、テキスト）ペアのコーパスで訓練されます。2つのモダリティを共有ベクトル空間に射影し、コサイン類似度がそれらの相互関連性を反映するように学習します。

📖

用語

Génération Conditionnelle Multimodale

異なるモダリティの1つ以上の入力（例：画像の説明、テキストからの画像作成など）に基づいて、出力（例：テキスト、画像）を生成する生成タスクです。

📖

用語

Raisonnement Chaîné Multimodal

複数のモダリティからの情報を利用して論理的な思考の連鎖を構築し、結論に至るモデルの能力です。例えば、グラフとテキストを分析して質問に回答する場合などが挙げられます。

📖

用語

Perceptron Multimodal

異なる性質の入力が、完全結合層で処理される前に、連結や融合操作によって組み合わされる理論上の概念または原始的なアーキテクチャです。

📖

用語

Modèle de Diffusion Multimodal

反復的なノイズ付加とノイズ除去プロセスを利用して、別のモダリティ（例：テキストによる説明）によって条件付けられたデータ（例：画像）を作成する生成アーキテクチャです。ノイズ除去は条件付け情報によってガイドされます。

📖

用語

Encodage Séparé vs Encodage Uni

マルチモーダルモデルにおける2つのアーキテクチャ戦略です。分離エンコーディングは融合前に各モダリティを専用のエンコーダーで処理するのに対し、統一エンコーディングは単一のトランスフォーマーを使用して混合されたトークンシーケンスを処理します。

📖

用語

マルチモーダルゼロショット学習

別のモダリティ（例：クラスラベルのテキスト）から転送された知識を活用することで、特定のモダリティ（例：画像の分類）について明示的にトレーニングを受けていないにもかかわらず、タスクを実行するモデルの能力。

📖

用語

音声・視覚・テキストモデル

ビデオの説明などの複雑なタスクのために、3つのデータストリーム（音、画像、テキスト）を統合する高度なマルチモーダルモデルの形式。モデルは、テキストによるナレーションを生成するために、視覚情報と音声情報を同期して解釈する必要があります。

📖

用語

潜在射影

各モダリティの埋め込みベクトルを、融合または比較の前に共通の潜在空間にマッピングするために使用されるニューラルネットワークの層（多くの場合、単純な線形変換）。

📖

用語

マルチモーダル基盤モデル

大量の異種データで事前学習された超大規模モデルであり、多数の特定のマルチモーダルタスクへの適応（ファインチューニング）の基礎として機能します。

📖

用語