विजन ट्रांसफॉर्मर (ViT)
बड़े पैमाने के डेटासेट पर पूर्व-प्रशिक्षण
ImageNet-21k या JFT-300M जैसे बड़े कॉर्पस पर एक ViT के प्रारंभिक प्रशिक्षण का चरण, जो इसके कम आगमनात्मक पूर्वाग्रह को दूर करने और अच्छा प्रदर्शन प्राप्त करने के लिए आवश्यक है।
← पीछे