এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মাস্কড ইমেজ মডেলিং (এমআইএম)
স্ব-তত্ত্বাবধানযুক্ত শিক্ষণ কৌশল যেখানে ছবির অংশগুলো মাস্ক করা হয় এবং মডেল শুধুমাত্র পার্শ্ববর্তী ভিজ্যুয়াল প্রসঙ্গ ব্যবহার করে সেগুলো পুনর্গঠন করতে শেখে।
ভিশন ট্রান্সফরমার (ভিআইটি)
নিউরাল আর্কিটেকচার যা ছবিগুলোকে সিকোয়েনশিয়াল প্যাচে বিভক্ত করে প্রক্রিয়াকরণের জন্য ট্রান্সফরমারদের অ্যাটেনশন মেকানিজম প্রয়োগ করে।
মাস্ক টোকেন
এমআইএম-এ ব্যবহৃত বিশেষ টোকেন যা মাস্ক করা অবস্থানগুলি নির্দেশ করে যা মডেলকে ভবিষ্যদ্বাণী করতে হবে, এনএলপি-তে [MASK] টোকেনের অনুরূপ।
টোকেন প্রেডিকশন
ছবিতে মাস্ক না করা প্রাসঙ্গিক ভিজ্যুয়াল টোকেনের ভিত্তিতে অনুপস্থিত ভিজ্যুয়াল টোকেনগুলির ভবিষ্যদ্বাণী করার মৌলিক কাজ।
প্রাসঙ্গিক শিক্ষণ
মাস্ক করা অঞ্চলগুলির ভবিষ্যদ্বাণী উন্নত করার জন্য ছবির প্যাচগুলির মধ্যে স্থানিক এবং শব্দার্থিক সম্পর্ক বোঝার মডেলের ক্ষমতা।
প্যাচ মাস্কিং কৌশল
ছবির কোন অঞ্চলগুলো মাস্ক করতে হবে (শতকরা, স্থানিক বন্টন) তা সংজ্ঞায়িত করার কৌশল যাতে উপস্থাপনাগুলির শিক্ষণ অপ্টিমাইজ করা যায়।
ভিজ্যুয়াল কনটেক্সট
একটি ছবিতে মাস্ক করা অঞ্চলগুলির বিষয়বস্তু অনুমান করতে ব্যবহৃত পার্শ্ববর্তী ভিজ্যুয়াল তথ্যের সমষ্টি।
ডাউনস্ট্রিম টাস্ক
নির্দিষ্ট কাজ (শ্রেণীবিভাগ, সেগমেন্টেশন, সনাক্তকরণ) যেখানে এমআইএমের মাধ্যমে শেখা উপস্থাপনাগুলি প্রি-ট্রেনিংয়ের পরে প্রয়োগ করা হয়।