এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
শ্রেণীবিভাগ টোকেন ([CLS])
প্যাচ সিকোয়েন্সে যোগ করা বিশেষ টোকেন, যার চূড়ান্ত উপস্থাপন ইমেজের সামগ্রিক শ্রেণীবিভাগ কাজে ব্যবহৃত হয়, NLP-তে BERT-এর অনুরূপ।
২ডি অবস্থানগত এনকোডিং
এম্বেডিংয়ে যোগ করা প্যাচগুলোর স্থানিক অবস্থানের তথ্য, যা সিকোয়েন্সিয়াল প্রক্রিয়াকরণ সত্ত্বেও মডেলকে ইমেজের ২ডি কাঠামো বুঝতে দেয়।
ইন্ডাকটিভ বায়াস
একটি মডেলে অন্তর্নির্মিত অনুমান; ViT-গুলোর CNN-এর চেয়ে কম ইন্ডাকটিভ বায়াস রয়েছে কারণ তারা পিক্সেলের স্থানিকতা ও স্থানান্তর সম্পর্কে পূর্ব জ্ঞান অন্তর্ভুক্ত করে না।
উইন্ডোড সেলফ-অ্যাটেনশন
অ্যাটেনশন মেকানিজম যেখানে গণনা প্যাচের স্থানীয় উইন্ডোতে সীমাবদ্ধ থাকে, উচ্চ রেজোলিউশন ইমেজের জন্য স্ট্যান্ডার্ড MHSA-এর চতুর্ঘাতিক জটিলতা হ্রাস করে।
বৃহৎ স্কেল ডেটাসেটে প্রি-ট্রেনিং
ImageNet-21k বা JFT-300M-এর মতো বিশাল কর্পাসে ViT-এর প্রাথমিক প্রশিক্ষণ পর্যায়, যা এর দুর্বল ইন্ডাকটিভ বায়াস কাটিয়ে উঠতে এবং ভাল পারফরম্যান্স অর্জনের জন্য অপরিহার্য।