ビジョントランスフォーマー(ViT)
Pre-training on Large Datasets
ファインチューニングの前に、一般的な視覚表現を学習するためにImageNet-21kのような数百万の画像で初期トレーニングを行う段階。
← 戻るファインチューニングの前に、一般的な視覚表現を学習するためにImageNet-21kのような数百万の画像で初期トレーニングを行う段階。
← 戻る