マルチモーダルトランスフォーマー
ビジョンランゲージトランスフォーマー
視覚的コンテンツとテキストコンテンツを共同で理解・生成するために特別に設計されたトランスフォーマーアーキテクチャで、各モダリティに対して共有または分離されたエンコーダーを使用します。
← 戻る視覚的コンテンツとテキストコンテンツを共同で理解・生成するために特別に設計されたトランスフォーマーアーキテクチャで、各モダリティに対して共有または分離されたエンコーダーを使用します。
← 戻る