マルチモーダルトランスフォーマー
ビジュアルパッチ埋め込み
Vision Transformer(ViT)で普及した技術。画像が重複しないパッチのグリッドに分割され、各パッチが線形化され、トークンとして処理されるための埋め込みベクトルに投影される
← 戻るVision Transformer(ViT)で普及した技術。画像が重複しないパッチのグリッドに分割され、各パッチが線形化され、トークンとして処理されるための埋め込みベクトルに投影される
← 戻る