マルチモーダル翻訳
ビジョン言語モデル
視覚情報と言語情報を組み合わせたコンテンツを理解・生成するために設計されたAIモデル(ViT、BLIP、ALIGNなど)。大規模な画像-テキストコーパスでの事前学習を通じて共同表現を学習する。
← 戻る視覚情報と言語情報を組み合わせたコンテンツを理解・生成するために設計されたAIモデル(ViT、BLIP、ALIGNなど)。大規模な画像-テキストコーパスでの事前学習を通じて共同表現を学習する。
← 戻る