マルチモーダルトランスフォーマー
VILLA (Vision-and-Language Large-scale model)
クロスマスク事前学習を使用し、統一されたTransformerアーキテクチャでビジョン言語理解タスクのために事前学習された大規模モデル。
← 戻るクロスマスク事前学習を使用し、統一されたTransformerアーキテクチャでビジョン言語理解タスクのために事前学習された大規模モデル。
← 戻る