मल्टीमॉडल ट्रांसफॉर्मर
विजुअल पैच एम्बेडिंग
विज़न ट्रांसफॉर्मर (ViT) द्वारा लोकप्रिय एक तकनीक जहाँ एक छवि को गैर-अतिव्यापी पैच के ग्रिड में काटा जाता है, प्रत्येक को बाद में एक टोकन के रूप में संसाधित करने के लिए एक एम्बेडिंग वेक्टर में रेखीयकृत और प्रक्षेपित किया जाता है।
← पीछे