विजन ट्रांसफॉर्मर (ViT)
स्थितिगत एन्कोडिंग 2D
एम्बेडिंग में जोड़ी गई पैच की स्थानिक स्थिति के बारे में जानकारी, जो मॉडल को अनुक्रमिक प्रसंस्करण के बावजूद छवि की 2D संरचना को समझने में सक्षम बनाती है।
← पीछे