মাল্টি-মোডাল ট্রান্সফরমার্স - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

মাল্টি-মোডাল ট্রান্সফরমার

বর্ধিত ট্রান্সফরমার আর্কিটেকচার যা একই সাথে একাধিক ডেটা মোডালিটি (টেক্সট, ইমেজ, অডিও) প্রক্রিয়া করতে সক্ষম, ক্রস-অ্যাটেনশন মেকানিজম ব্যবহার করে ইন্টার-মোডাল তথ্য সংহত করার জন্য।

📖

শব্দ

ভিশন-ল্যাঙ্গুয়েজ ট্রান্সফরমার

ভিজ্যুয়াল এবং টেক্সচুয়াল কন্টেন্ট একসাথে বোঝা এবং তৈরি করার জন্য বিশেষভাবে ডিজাইন করা ট্রান্সফরমার আর্কিটেকচার, প্রতিটি মোডালিটির জন্য শেয়ার্ড বা আলাদা এনকোডার ব্যবহার করে।

📖

শব্দ

ফিউশন মেকানিজম

অ্যালগরিদমিক কৌশল যা নেটওয়ার্কের এক বা একাধিক স্তরে বিভিন্ন মোডালিটির রিপ্রেজেন্টেশন কার্যকরভাবে একত্রিত করতে সক্ষম, যার মধ্যে রয়েছে প্রারম্ভিক ফিউশন, বিলম্বিত ফিউশন বা হায়ারার্কিকাল ফিউশন।

📖

শব্দ

মোডালিটি এমবেডিং

টোকেন এমবেডিংয়ে যোগ করা নির্দিষ্ট এনকোডিং ভেক্টর যা মূল মোডালিটি (টেক্সট, ইমেজ, অডিও) নির্দেশ করে, ট্রান্সফরমারকে প্রতিটি ধরনের ডেটা আলাদা করে চিহ্নিত এবং প্রক্রিয়া করতে সক্ষম করে।

📖

শব্দ

CLIP

কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং মডেল যা ৪০০ মিলিয়ন ইমেজ-টেক্সট জোড়ায় প্রশিক্ষিত, ভিশন এবং ল্যাঙ্গুয়েজের মধ্যে শেয়ার্ড রিপ্রেজেন্টেশন শেখার জন্য কনট্রাস্টিভ উদ্দেশ্য ব্যবহার করে।

📖

শব্দ

VLP

ভিশন-ল্যাঙ্গুয়েজ প্রি-ট্রেনিং মডেলের পরিবার যা উভয় মোডালিটির জন্য একটি শেয়ার্ড ট্রান্সফরমার এনকোডার ব্যবহার করে, মাস্কড মডেলিং এবং ইমেজ-টেক্সট প্রেডিকশনের মতো প্রি-ট্রেনিং টাস্ক সহ।

📖

শব্দ

ইউনিফাইড এনকোডার-ডিকোডার

ট্রান্সফরমার আর্কিটেকচার যেখানে একই এনকোডার সমস্ত ইনপুট মোডালিটি প্রক্রিয়া করে, এবং একটি ডিকোডার আউটপুট তৈরি করে, VQA, ক্যাপশনিং এবং রিট্রিভালের মতো টাস্কগুলি একটি মডেল দিয়ে সম্পাদন করতে সক্ষম করে।

📖

শব্দ

মোডালিটি গ্যাপ

বিভিন্ন মোডালিটির রিপ্রেজেন্টেশন স্পেসের মধ্যে অন্তর্নিহিত গাঠনিক এবং সিম্যান্টিক পার্থক্য, যা মাল্টি-মোডাল মডেলগুলিতে নির্দিষ্ট অ্যালাইনমেন্ট মেকানিজমের প্রয়োজনীয়তা তৈরি করে।

📖

শব্দ

মাল্টি-মোডাল ফিউশন

বিভিন্ন মোডালিটি থেকে বৈশিষ্ট্যগুলিকে একটি একীভূত উপস্থাপনায় সংহত করার প্রক্রিয়া, জটিল কাজে কর্মক্ষমতা উন্নত করতে আন্তঃ-মোডাল পরিপূরকতাগুলি কাজে লাগানো।

📖

শব্দ

ক্রস-মোডাল অ্যালাইনমেন্ট

একটি ভাগ করা স্থানে বিভিন্ন মোডালিটির উপস্থাপনাগুলিকে শব্দার্থিকভাবে সারিবদ্ধ করার প্রশিক্ষণ লক্ষ্য, যা ভিজ্যুয়াল এবং ভাষাগত ধারণাগুলির মধ্যে মিল অনুমোদন করে।

📖

শব্দ

পারসিভার আইও

একটি সাধারণ ট্রান্সফরমার আর্কিটেকচার যা ইনপুট ডেটা এবং শেখা লেটেন্টগুলির একটি সেটের মধ্যে ক্রস-অ্যাটেনশন নেটওয়ার্ক ব্যবহার করে যেকোনো মোডালিটি সংমিশ্রণ প্রক্রিয়া করতে সক্ষম।

📖

শব্দ

৮০ বিলিয়ন প্যারামিটার বিশিষ্ট ভিশন-ল্যাঙ্গুয়েজ মডেল যা সম্পূর্ণ পুনঃপ্রশিক্ষণ ছাড়াই ভিশন ট্রান্সফরমার এবং ভাষা মডেলগুলিকে কার্যকরভাবে একত্রিত করতে প্রাক-প্রশিক্ষিত অ্যাডাপ্টার এবং অ্যাটেনশনাল গেটিং ব্যবহার করে।

📖

শব্দ

ব্লিপ

বুটস্ট্র্যাপিং ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং ফ্রেমওয়ার্ক যা শব্দ ফিল্টার করতে এবং ডেটার গুণমান উন্নত করতে সিউডো-ক্যাপশন তৈরি করে, একটি মাল্টিমোডাল এনকোডার এবং ইমেজ-টেক্সট ডিকোডার ব্যবহার করে।

📖

শব্দ

কোকা

কনট্রাস্টিভ ক্যাপশনার মডেল যা একটি একক একীভূত ট্রান্সফরমার আর্কিটেকচারে উপস্থাপনা শেখার জন্য একটি কনট্রাস্টিভ উদ্দেশ্য এবং ক্যাপশনিংয়ের জন্য একটি জেনারেটিভ উদ্দেশ্য একত্রিত করে।

📖

শব্দ

বেইট-৩

বাইডাইরেকশনাল এনকোডার রিপ্রেজেন্টেশন ফ্রম ইমেজ ট্রান্সফরমার v3 মডেল যা ইমেজ, টেক্সট এবং ইমেজ-টেক্সটকে একীভূতভাবে প্রক্রিয়া করতে মডালিটি-স্পেসিফিক এম্বেডিং সহ একটি মাল্টিওয়ে ট্রান্সফরমার ব্যবহার করে।

📖

শব্দ

লেআউটএলএম

প্রাক-প্রশিক্ষিত মডেলের পরিবার যা ফর্ম এবং চালান মতো কাঠামোগত নথি বোঝার জন্য 2D স্থানিক বিন্যাস, টেক্সট এবং ভিজ্যুয়াল তথ্য একত্রিত করে।

📖

শব্দ

UniPerceiver

বিভিন্ন মাল্টিমোডাল কাজকে একটি একীভূত টোকেন জেনারেশন সমস্যা হিসেবে পরিচালনা করার জন্য সর্বজনীন উপলব্ধি ফ্রেমওয়ার্ক, যা শ্রেণীবিভাগ, সনাক্তকরণ এবং জেনারেশনের জন্য একটি একক ট্রান্সফরমার মডেল ব্যবহার করে।

📖

শব্দ

GIT

জেনারেটিভ ইমেজ-টু-টেক্সট ট্রান্সফরমার মডেল যা ছবিকে একটি বিদেশী ভাষা হিসেবে বিবেচনা করে এবং ছবির বর্ণনা এবং ভিজ্যুয়াল প্রশ্নোত্তরের জন্য একটি সাধারণ এনকোডার-ডিকোডার আর্কিটেকচার ব্যবহার করে স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স প্রদান করে।

এআই গ্লসারি