ভিশন ট্রান্সফরমার - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

ইমেজ প্যাচেস

একটি ইমেজকে নিয়মিত গ্রিডে ছোট বর্গাকার বিভাগে (সাধারণত ১৬x১৬ পিক্সেল) বিভক্ত করা, যা ViT দ্বারা অনুক্রমিক টোকেন হিসেবে প্রক্রিয়াজাত করা হয়।

📖

শব্দ

ভিজ্যুয়াল টোকেনাইজেশন

একটি ইমেজকে বিযুক্ত টোকেনের অনুক্রমে বিভক্ত করার প্রক্রিয়া, যা প্রাথমিকভাবে টেক্সটের জন্য ডিজাইন করা ট্রান্সফরমার আর্কিটেকচারকে ভিজ্যুয়াল ডেটার সাথে খাপ খাওয়ানোর জন্য মৌলিক।

📖

শব্দ

ডেইটি (ডেটা-এফিসিয়েন্ট ইমেজ ট্রান্সফরমার)

ভিশন ট্রান্সফরমারের একটি প্রকরণ যা কম ট্রেনিং ডেটা নিয়ে প্রতিযোগিতামূলক পারফরম্যান্স অর্জনের জন্য ডিস্টিলেশন কৌশল দিয়ে প্রশিক্ষিত।

📖

শব্দ

হায়ারার্কিক্যাল ভিশন ট্রান্সফরমার্স

ট্রান্সফরমার আর্কিটেকচার যা ইমেজের মাল্টি-স্কেল উপস্থাপনা বজায় রাখে, ঐতিহ্যবাহী CNN-এর সুবিধাগুলিকে ট্রান্সফরমার্সের নমনীয়তার সাথে একত্রিত করে।

📖

শব্দ

লেয়ার স্কেলিং

ট্রান্সফরমার স্তরে অবশিষ্টাংশে প্রয়োগ করা নরমালাইজেশন কৌশল, যা প্রশিক্ষণ স্থিতিশীল করতে এবং গভীর মডেলগুলির কনভারজেন্স উন্নত করতে ব্যবহৃত হয়।

📖

শব্দ

ক্রস-অ্যাটেনশন ভিশন ট্রান্সফরমার

বিভিন্ন মোডালিটি বা উপস্থাপনার মধ্যে ক্রস-অ্যাটেনশন মেকানিজম ব্যবহার করে আর্কিটেকচার, যা ফিচারগুলির মধ্যে সমৃদ্ধ ইন্টারঅ্যাকশন সক্ষম করে।

📖

শব্দ

উইন্ডো-ভিত্তিক সেলফ-অ্যাটেনশন

সম্পূর্ণ ইমেজের পরিবর্তে স্থানীয় উইন্ডোর মধ্যে সীমাবদ্ধ অ্যাটেনশনের প্রকরণ, যা গণনামূলক জটিলতা হ্রাস করার পাশাপাশি গুরুত্বপূর্ণ স্থানীয় সম্পর্ক ক্যাপচার করে।

এআই গ্লসারি

ইমেজ প্যাচেস

ভিজ্যুয়াল টোকেনাইজেশন

ডেইটি (ডেটা-এফিসিয়েন্ট ইমেজ ট্রান্সফরমার)

হায়ারার্কিক্যাল ভিশন ট্রান্সফরমার্স

লেয়ার স্কেলিং

ক্রস-অ্যাটেনশন ভিশন ট্রান্সফরমার

উইন্ডো-ভিত্তিক সেলফ-অ্যাটেনশন

কোন ফলাফল পাওয়া যায়নি