Vision Transformers - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

এমএলপি হেড

শেষ শ্রেণীবিভাগ মডিউল যা সাধারণত একটি সম্পূর্ণ সংযুক্ত স্তর এবং সক্রিয়করণ নিয়ে গঠিত, তারপরে শ্রেণী ভবিষ্যদ্বাণীর জন্য একটি আউটপুট স্তর। এমএলপি হেড ক্লাস টোকেনের চূড়ান্ত উপস্থাপনা প্রক্রিয়া করে প্রতিটি সম্ভাব্য শ্রেণীর জন্য শ্রেণীবিভাগ স্কোর তৈরি করে।

📖

শব্দ

প্যাচ সাইজ

ইনপুট ইমেজ যে বর্গাকার অংশে বিভক্ত হয় তার স্থানিক মাত্রা, সাধারণত স্ট্যান্ডার্ড ViT আর্কিটেকচারের জন্য 16x16 বা 32x32 পিক্সেল। প্যাচের আকার সরাসরি উৎপন্ন টোকেনের সংখ্যা এবং মডেল দ্বারা সংরক্ষিত স্থানিক তথ্যের সূক্ষ্মতাকে প্রভাবিত করে।

📖

শব্দ

ইমেজ টোকেনাইজেশন

একটি 2D ইমেজকে 1D টোকেনের ক্রমে রূপান্তরের প্রক্রিয়া যা ট্রান্সফরমার দ্বারা প্রক্রিয়াযোগ্য, যাতে প্যাচে বিভাজন এবং রৈখিক অভিক্ষেপ জড়িত। এই টোকেনাইজেশন হল সেই গুরুত্বপূর্ণ ধাপ যা মূলত টেক্সটের জন্য ডিজাইন করা ট্রান্সফরমার আর্কিটেকচারকে ভিশন ডোমেনে মানানসই করে।

📖

শব্দ

স্কেল-ইনভেরিয়েন্ট বৈশিষ্ট্য

ভিশন ট্রান্সফরমার দ্বারা নিষ্কাশিত বৈশিষ্ট্য যা ইমেজে বস্তুর স্কেল পরিবর্তনের বিরুদ্ধে রোবাস্ট থাকে। এই বৈশিষ্ট্যগুলি ট্রান্সফরমারের গ্লোবাল আর্কিটেকচার থেকে স্বাভাবিকভাবে উদ্ভূত হয় প্যাচগুলির মধ্যে দীর্ঘ দূরত্বের সম্পর্ক মডেল করার তাদের ক্ষমতার মাধ্যমে।

📖

শব্দ

টোকেন-টু-টোকেন ViT (T2T-ViT)

ভিশন ট্রান্সফরমারের একটি বৈকল্পিক যা ধাপে ধাপে প্যাচগুলিকে আরও তথ্যপূর্ণ টোকেনে রূপান্তর করার জন্য একটি পুনরাবৃত্তিমূলক টোকেনাইজেশন প্রক্রিয়া ব্যবহার করে। এই পদ্ধতি স্থানীয় কাঠামোর আরও ভাল মডেলিং এবং স্থানিক রেজোলিউশনের ক্রমাগত হ্রাসের অনুমতি দেয়, এইভাবে গণনাগত দক্ষতা উন্নত করে।

📖

শব্দ

পিরামিড ভিশন ট্রান্সফরমার (PVT)

একটি শ্রেণীবদ্ধ ট্রান্সফরমার আর্কিটেকচার যা বিভিন্ন স্কেলে বৈশিষ্ট্য ম্যাপ তৈরি করে, সিএনএন-এর বৈশিষ্ট্য পিরামিডের অনুরূপ। PVT বিশেষভাবে ঘন ভিশন টাস্ক যেমন সেমান্টিক সেগমেন্টেশন এবং অবজেক্ট ডিটেকশনের জন্য উপযুক্ত যার জন্য মাল্টি-স্কেল উপস্থাপনার প্রয়োজন হয়।

📖

শব্দ

সুইন ট্রান্সফরমার

একটি শ্রেণীবদ্ধ ট্রান্সফরমার আর্কিটেকচার যাতে শিফটেড অ্যাটেনশন উইন্ডো রয়েছে যা রৈখিক জটিলতার সাথে স্থানীয় এবং গ্লোবাল সম্পর্কের দক্ষ মডেলিংয়ের অনুমতি দেয়। সুইন ট্রান্সফরমার মাল্টি-স্কেল সংযোগ প্রবর্তন করে এবং ভিশন টাস্কের একটি বিস্তৃত পরিসরে ব্যতিক্রমী পারফরম্যান্স প্রদর্শন করেছে।

📖

শব্দ

ডেইটি (ডেটা-এফিশিয়েন্ট ইমেজ ট্রান্সফরমার)

ভিশন ট্রান্সফরমারের একটি বৈকল্পিক যা কম ট্রেনিং ডেটা নিয়ে প্রতিযোগিতামূলক পারফরম্যান্স অর্জনের জন্য নলেজ ডিস্টিলেশন কৌশল দিয়ে প্রশিক্ষিত। ডেইটি একটি অতিরিক্ত ডিস্টিলেশন টোকেন প্রবর্তন করে যা একটি সিএনএন শিক্ষকের ভবিষ্যদ্বাণী থেকে শেখে, এইভাবে বৃহৎ ডেটা-ভিত্তিক পদ্ধতির সাথে পারফরম্যান্স ব্যবধান হ্রাস করে।

📖

শব্দ

মাস্কড অটোএনকোডারস (এমএই)

স্ব-তত্ত্বাবধানাধীন প্রাক-প্রশিক্ষণের একটি পদ্ধতি যেখানে ভিশন ট্রান্সফরমাররা দৃশ্যমান প্যাচগুলি থেকে মাস্ক করা ইমেজ প্যাচগুলি পুনর্গঠন করে শেখে। এই সহজ কিন্তু কার্যকর পদ্ধতি কম্পিউটেশনাল সম্পদে অত্যন্ত সাশ্রয়ী হওয়ার পাশাপাশি প্রাক-প্রশিক্ষণে শীর্ষস্থানীয় কর্মক্ষমতা অর্জন করে।

এআই গ্লসারি

এমএলপি হেড

প্যাচ সাইজ

ইমেজ টোকেনাইজেশন

স্কেল-ইনভেরিয়েন্ট বৈশিষ্ট্য

টোকেন-টু-টোকেন ViT (T2T-ViT)

পিরামিড ভিশন ট্রান্সফরমার (PVT)

সুইন ট্রান্সফরমার

ডেইটি (ডেটা-এফিশিয়েন্ট ইমেজ ট্রান্সফরমার)

মাস্কড অটোএনকোডারস (এমএই)

কোন ফলাফল পাওয়া যায়নি