এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মাল্টি-মোডাল ট্রান্সফরমার
বর্ধিত ট্রান্সফরমার আর্কিটেকচার যা একই সাথে একাধিক ডেটা মোডালিটি (টেক্সট, ইমেজ, অডিও) প্রক্রিয়া করতে সক্ষম, ক্রস-অ্যাটেনশন মেকানিজম ব্যবহার করে ইন্টার-মোডাল তথ্য সংহত করার জন্য।
ভিশন-ল্যাঙ্গুয়েজ ট্রান্সফরমার
ভিজ্যুয়াল এবং টেক্সচুয়াল কন্টেন্ট একসাথে বোঝা এবং তৈরি করার জন্য বিশেষভাবে ডিজাইন করা ট্রান্সফরমার আর্কিটেকচার, প্রতিটি মোডালিটির জন্য শেয়ার্ড বা আলাদা এনকোডার ব্যবহার করে।
ফিউশন মেকানিজম
অ্যালগরিদমিক কৌশল যা নেটওয়ার্কের এক বা একাধিক স্তরে বিভিন্ন মোডালিটির রিপ্রেজেন্টেশন কার্যকরভাবে একত্রিত করতে সক্ষম, যার মধ্যে রয়েছে প্রারম্ভিক ফিউশন, বিলম্বিত ফিউশন বা হায়ারার্কিকাল ফিউশন।
মোডালিটি এমবেডিং
টোকেন এমবেডিংয়ে যোগ করা নির্দিষ্ট এনকোডিং ভেক্টর যা মূল মোডালিটি (টেক্সট, ইমেজ, অডিও) নির্দেশ করে, ট্রান্সফরমারকে প্রতিটি ধরনের ডেটা আলাদা করে চিহ্নিত এবং প্রক্রিয়া করতে সক্ষম করে।
CLIP
কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং মডেল যা ৪০০ মিলিয়ন ইমেজ-টেক্সট জোড়ায় প্রশিক্ষিত, ভিশন এবং ল্যাঙ্গুয়েজের মধ্যে শেয়ার্ড রিপ্রেজেন্টেশন শেখার জন্য কনট্রাস্টিভ উদ্দেশ্য ব্যবহার করে।
VLP
ভিশন-ল্যাঙ্গুয়েজ প্রি-ট্রেনিং মডেলের পরিবার যা উভয় মোডালিটির জন্য একটি শেয়ার্ড ট্রান্সফরমার এনকোডার ব্যবহার করে, মাস্কড মডেলিং এবং ইমেজ-টেক্সট প্রেডিকশনের মতো প্রি-ট্রেনিং টাস্ক সহ।
ইউনিফাইড এনকোডার-ডিকোডার
ট্রান্সফরমার আর্কিটেকচার যেখানে একই এনকোডার সমস্ত ইনপুট মোডালিটি প্রক্রিয়া করে, এবং একটি ডিকোডার আউটপুট তৈরি করে, VQA, ক্যাপশনিং এবং রিট্রিভালের মতো টাস্কগুলি একটি মডেল দিয়ে সম্পাদন করতে সক্ষম করে।
মোডালিটি গ্যাপ
বিভিন্ন মোডালিটির রিপ্রেজেন্টেশন স্পেসের মধ্যে অন্তর্নিহিত গাঠনিক এবং সিম্যান্টিক পার্থক্য, যা মাল্টি-মোডাল মডেলগুলিতে নির্দিষ্ট অ্যালাইনমেন্ট মেকানিজমের প্রয়োজনীয়তা তৈরি করে।
মাল্টি-মোডাল ফিউশন
বিভিন্ন মোডালিটি থেকে বৈশিষ্ট্যগুলিকে একটি একীভূত উপস্থাপনায় সংহত করার প্রক্রিয়া, জটিল কাজে কর্মক্ষমতা উন্নত করতে আন্তঃ-মোডাল পরিপূরকতাগুলি কাজে লাগানো।
ক্রস-মোডাল অ্যালাইনমেন্ট
একটি ভাগ করা স্থানে বিভিন্ন মোডালিটির উপস্থাপনাগুলিকে শব্দার্থিকভাবে সারিবদ্ধ করার প্রশিক্ষণ লক্ষ্য, যা ভিজ্যুয়াল এবং ভাষাগত ধারণাগুলির মধ্যে মিল অনুমোদন করে।
পারসিভার আইও
একটি সাধারণ ট্রান্সফরমার আর্কিটেকচার যা ইনপুট ডেটা এবং শেখা লেটেন্টগুলির একটি সেটের মধ্যে ক্রস-অ্যাটেনশন নেটওয়ার্ক ব্যবহার করে যেকোনো মোডালিটি সংমিশ্রণ প্রক্রিয়া করতে সক্ষম।
ফ্ল্যামিঙ্গো মডেল
৮০ বিলিয়ন প্যারামিটার বিশিষ্ট ভিশন-ল্যাঙ্গুয়েজ মডেল যা সম্পূর্ণ পুনঃপ্রশিক্ষণ ছাড়াই ভিশন ট্রান্সফরমার এবং ভাষা মডেলগুলিকে কার্যকরভাবে একত্রিত করতে প্রাক-প্রশিক্ষিত অ্যাডাপ্টার এবং অ্যাটেনশনাল গেটিং ব্যবহার করে।
ব্লিপ
বুটস্ট্র্যাপিং ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং ফ্রেমওয়ার্ক যা শব্দ ফিল্টার করতে এবং ডেটার গুণমান উন্নত করতে সিউডো-ক্যাপশন তৈরি করে, একটি মাল্টিমোডাল এনকোডার এবং ইমেজ-টেক্সট ডিকোডার ব্যবহার করে।
কোকা
কনট্রাস্টিভ ক্যাপশনার মডেল যা একটি একক একীভূত ট্রান্সফরমার আর্কিটেকচারে উপস্থাপনা শেখার জন্য একটি কনট্রাস্টিভ উদ্দেশ্য এবং ক্যাপশনিংয়ের জন্য একটি জেনারেটিভ উদ্দেশ্য একত্রিত করে।
বেইট-৩
বাইডাইরেকশনাল এনকোডার রিপ্রেজেন্টেশন ফ্রম ইমেজ ট্রান্সফরমার v3 মডেল যা ইমেজ, টেক্সট এবং ইমেজ-টেক্সটকে একীভূতভাবে প্রক্রিয়া করতে মডালিটি-স্পেসিফিক এম্বেডিং সহ একটি মাল্টিওয়ে ট্রান্সফরমার ব্যবহার করে।
লেআউটএলএম
প্রাক-প্রশিক্ষিত মডেলের পরিবার যা ফর্ম এবং চালান মতো কাঠামোগত নথি বোঝার জন্য 2D স্থানিক বিন্যাস, টেক্সট এবং ভিজ্যুয়াল তথ্য একত্রিত করে।
UniPerceiver
বিভিন্ন মাল্টিমোডাল কাজকে একটি একীভূত টোকেন জেনারেশন সমস্যা হিসেবে পরিচালনা করার জন্য সর্বজনীন উপলব্ধি ফ্রেমওয়ার্ক, যা শ্রেণীবিভাগ, সনাক্তকরণ এবং জেনারেশনের জন্য একটি একক ট্রান্সফরমার মডেল ব্যবহার করে।
GIT
জেনারেটিভ ইমেজ-টু-টেক্সট ট্রান্সফরমার মডেল যা ছবিকে একটি বিদেশী ভাষা হিসেবে বিবেচনা করে এবং ছবির বর্ণনা এবং ভিজ্যুয়াল প্রশ্নোত্তরের জন্য একটি সাধারণ এনকোডার-ডিকোডার আর্কিটেকচার ব্যবহার করে স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স প্রদান করে।