ビジョントランスフォーマー
視覚的トークン化
画像を離散的なトークンのシーケンスに分割するプロセスであり、当初テキスト用に設計されたトランスフォーマーアーキテクチャを視覚データに適応させるための基本的な手法。
← 戻る画像を離散的なトークンのシーケンスに分割するプロセスであり、当初テキスト用に設計されたトランスフォーマーアーキテクチャを視覚データに適応させるための基本的な手法。
← 戻る