マルチモーダルトランスフォーマー
FLAVA (Foundational Language and Vision Alignment)
シンプルなTransformerアーキテクチャを持つ統合マルチモーダル基盤モデルで、テキストのみ、画像のみ、マルチモーダルデータで同時に事前学習されています。
← 戻るシンプルなTransformerアーキテクチャを持つ統合マルチモーダル基盤モデルで、テキストのみ、画像のみ、マルチモーダルデータで同時に事前学習されています。
← 戻る