ビジョントランスフォーマー
Patch Size
入力画像が分割される正方形の空間次元で、標準的なViTアーキテクチャでは通常16x16または32x32ピクセルです。パッチサイズは、生成されるトークンの数とモデルが保持する空間情報の粒度に直接影響します。
← 戻る入力画像が分割される正方形の空間次元で、標準的なViTアーキテクチャでは通常16x16または32x32ピクセルです。パッチサイズは、生成されるトークンの数とモデルが保持する空間情報の粒度に直接影響します。
← 戻る