マルチモーダルトランスフォーマー
統合エンコーダー-デコーダー
同じエンコーダーがすべての入力モダリティを処理し、デコーダーが出力を生成するトランスフォーマーアーキテクチャで、VQA、キャプション生成、検索などのタスクを単一モデルで可能にします。
← 戻る同じエンコーダーがすべての入力モダリティを処理し、デコーダーが出力を生成するトランスフォーマーアーキテクチャで、VQA、キャプション生成、検索などのタスクを単一モデルで可能にします。
← 戻る