マルチモーダルトランスフォーマー
ALBEF(融合前に整列)
コアテンショントランスフォーマーレイヤーによる融合前に、対照的事前学習を使用してテキストと画像の表現を整列させるビジョン・ランゲージモデル。相互作用の質を向上させる
← 戻るコアテンショントランスフォーマーレイヤーによる融合前に、対照的事前学習を使用してテキストと画像の表現を整列させるビジョン・ランゲージモデル。相互作用の質を向上させる
← 戻る