マルチモーダルQA
Vision-Language Transformer (VLT)
マルチモーダルな理解と生成タスクのために設計された、画像とテキストのペアからなる大規模なコーパスで事前学習されたTransformerアーキテクチャ。
← 戻るマルチモーダルな理解と生成タスクのために設計された、画像とテキストのペアからなる大規模なコーパスで事前学習されたTransformerアーキテクチャ。
← 戻る