एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
वर्गीकरण टोकन ([CLS])
पैच के अनुक्रम में जोड़ा गया विशेष टोकन, जिसकी अंतिम प्रस्तुति का उपयोग छवि के वैश्विक वर्गीकरण कार्य के लिए किया जाता है, जो एनएलपी में BERT के समान है।
स्थितिगत एन्कोडिंग 2D
एम्बेडिंग में जोड़ी गई पैच की स्थानिक स्थिति के बारे में जानकारी, जो मॉडल को अनुक्रमिक प्रसंस्करण के बावजूद छवि की 2D संरचना को समझने में सक्षम बनाती है।
आगमनात्मक पूर्वाग्रह
एक मॉडल में अंतर्निहित धारणाएँ; ViT में CNN की तुलना में कम आगमनात्मक पूर्वाग्रह होता है क्योंकि वे पिक्सेल के स्थानीयकरण और अनुवाद के बारे में पूर्व ज्ञान को शामिल नहीं करते हैं।
विंडो वाली सेल्फ-अटेंशन
एक ध्यान तंत्र जहाँ गणनाएँ पैच की स्थानीय विंडो तक सीमित होती हैं, जिससे उच्च-रिज़ॉल्यूशन वाली छवियों के लिए मानक MHSA की द्विघात जटिलता कम हो जाती है।
बड़े पैमाने के डेटासेट पर पूर्व-प्रशिक्षण
ImageNet-21k या JFT-300M जैसे बड़े कॉर्पस पर एक ViT के प्रारंभिक प्रशिक्षण का चरण, जो इसके कम आगमनात्मक पूर्वाग्रह को दूर करने और अच्छा प्रदर्शन प्राप्त करने के लिए आवश्यक है।