এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ইমেজ প্যাচেস
একটি ইমেজকে নিয়মিত গ্রিডে ছোট বর্গাকার বিভাগে (সাধারণত ১৬x১৬ পিক্সেল) বিভক্ত করা, যা ViT দ্বারা অনুক্রমিক টোকেন হিসেবে প্রক্রিয়াজাত করা হয়।
ভিজ্যুয়াল টোকেনাইজেশন
একটি ইমেজকে বিযুক্ত টোকেনের অনুক্রমে বিভক্ত করার প্রক্রিয়া, যা প্রাথমিকভাবে টেক্সটের জন্য ডিজাইন করা ট্রান্সফরমার আর্কিটেকচারকে ভিজ্যুয়াল ডেটার সাথে খাপ খাওয়ানোর জন্য মৌলিক।
ডেইটি (ডেটা-এফিসিয়েন্ট ইমেজ ট্রান্সফরমার)
ভিশন ট্রান্সফরমারের একটি প্রকরণ যা কম ট্রেনিং ডেটা নিয়ে প্রতিযোগিতামূলক পারফরম্যান্স অর্জনের জন্য ডিস্টিলেশন কৌশল দিয়ে প্রশিক্ষিত।
হায়ারার্কিক্যাল ভিশন ট্রান্সফরমার্স
ট্রান্সফরমার আর্কিটেকচার যা ইমেজের মাল্টি-স্কেল উপস্থাপনা বজায় রাখে, ঐতিহ্যবাহী CNN-এর সুবিধাগুলিকে ট্রান্সফরমার্সের নমনীয়তার সাথে একত্রিত করে।
লেয়ার স্কেলিং
ট্রান্সফরমার স্তরে অবশিষ্টাংশে প্রয়োগ করা নরমালাইজেশন কৌশল, যা প্রশিক্ষণ স্থিতিশীল করতে এবং গভীর মডেলগুলির কনভারজেন্স উন্নত করতে ব্যবহৃত হয়।
ক্রস-অ্যাটেনশন ভিশন ট্রান্সফরমার
বিভিন্ন মোডালিটি বা উপস্থাপনার মধ্যে ক্রস-অ্যাটেনশন মেকানিজম ব্যবহার করে আর্কিটেকচার, যা ফিচারগুলির মধ্যে সমৃদ্ধ ইন্টারঅ্যাকশন সক্ষম করে।
উইন্ডো-ভিত্তিক সেলফ-অ্যাটেনশন
সম্পূর্ণ ইমেজের পরিবর্তে স্থানীয় উইন্ডোর মধ্যে সীমাবদ্ধ অ্যাটেনশনের প্রকরণ, যা গণনামূলক জটিলতা হ্রাস করার পাশাপাশি গুরুত্বপূর্ণ স্থানীয় সম্পর্ক ক্যাপচার করে।