ভিশন ট্রান্সফরমার (ViT) - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

শ্রেণীবিভাগ টোকেন ([CLS])

প্যাচ সিকোয়েন্সে যোগ করা বিশেষ টোকেন, যার চূড়ান্ত উপস্থাপন ইমেজের সামগ্রিক শ্রেণীবিভাগ কাজে ব্যবহৃত হয়, NLP-তে BERT-এর অনুরূপ।

📖

শব্দ

২ডি অবস্থানগত এনকোডিং

এম্বেডিংয়ে যোগ করা প্যাচগুলোর স্থানিক অবস্থানের তথ্য, যা সিকোয়েন্সিয়াল প্রক্রিয়াকরণ সত্ত্বেও মডেলকে ইমেজের ২ডি কাঠামো বুঝতে দেয়।

📖

শব্দ

ইন্ডাকটিভ বায়াস

একটি মডেলে অন্তর্নির্মিত অনুমান; ViT-গুলোর CNN-এর চেয়ে কম ইন্ডাকটিভ বায়াস রয়েছে কারণ তারা পিক্সেলের স্থানিকতা ও স্থানান্তর সম্পর্কে পূর্ব জ্ঞান অন্তর্ভুক্ত করে না।

📖

শব্দ

উইন্ডোড সেলফ-অ্যাটেনশন

অ্যাটেনশন মেকানিজম যেখানে গণনা প্যাচের স্থানীয় উইন্ডোতে সীমাবদ্ধ থাকে, উচ্চ রেজোলিউশন ইমেজের জন্য স্ট্যান্ডার্ড MHSA-এর চতুর্ঘাতিক জটিলতা হ্রাস করে।

📖

শব্দ

বৃহৎ স্কেল ডেটাসেটে প্রি-ট্রেনিং

ImageNet-21k বা JFT-300M-এর মতো বিশাল কর্পাসে ViT-এর প্রাথমিক প্রশিক্ষণ পর্যায়, যা এর দুর্বল ইন্ডাকটিভ বায়াস কাটিয়ে উঠতে এবং ভাল পারফরম্যান্স অর্জনের জন্য অপরিহার্য।

এআই গ্লসারি

শ্রেণীবিভাগ টোকেন ([CLS])

২ডি অবস্থানগত এনকোডিং

ইন্ডাকটিভ বায়াস

উইন্ডোড সেলফ-অ্যাটেনশন

বৃহৎ স্কেল ডেটাসেটে প্রি-ট্রেনিং

কোন ফলাফল পাওয়া যায়নি