এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টোকেন ফিউশন
বিভিন্ন মডালিটি থেকে আগত টোকেনগুলিকে ট্রান্সফরমার স্তরগুলির মাধ্যমে প্রক্রিয়াকরণের পূর্বে সংযুক্ত বা একত্রিত করার কৌশল। উন্নত যৌথ উপস্থাপনার জন্য বহু-মডাল তথ্যের প্রাথমিক একীকরণের সুবিধা দেয়।
ALIGN
স্বয়ংক্রিয়ভাবে ফিল্টার করা এক বিলিয়ন নয়েজি জোড়ার উপর প্রশিক্ষিত একটি কনট্রাস্টিভ ইমেজ-টেক্সট মডেল। প্রদর্শন করে যে বৃহৎ-স্কেল বহু-মডাল শেখার ক্ষেত্রে ডেটার পরিমাণ নয়েজের ক্ষতিপূরণ দিতে পারে।
ফ্ল্যামিঙ্গো
ভিশন-ল্যাঙ্গুয়েজ মডেল যা বিদ্যমান প্রি-ট্রেইন্ড ট্রান্সফরমারগুলিকে ভিজুয়াল-লিঙ্গুয়িস্টিক অ্যাটেনশন মডিউল দিয়ে অভিযোজিত করে। সম্পূর্ণ পুনঃপ্রশিক্ষণ ছাড়াই জটিল বহু-মডাল বোঝার কাজগুলিতে ফিউ-শট লার্নিংয়ের সুবিধা দেয়।
ক্রস-মডাল রিপ্রেজেন্টেশন
শেয়ার্ড ভেক্টর স্পেস যেখানে বিভিন্ন মডালিটির এম্বেডিংগুলি আন্তঃ-মডাল ইন্টারঅ্যাকশন সক্ষম করার জন্য সিম্যান্টিক্যালি এলাইন করা হয়। টেক্সট, ইমেজ, অডিও এবং ভিডিওর মধ্যে জ্ঞান স্থানান্তর এবং একীভূত বোঝাপড়া সহজ করে।
MViT (মাল্টিস্কেল ভিশন ট্রান্সফরমার)
ভিডিও ট্রান্সফরমার আর্কিটেকচার যা একাধিক টেম্পোরাল এবং স্পেশিয়াল স্কেলের বৈশিষ্ট্যগুলিকে একত্রিত করে। ভিডিও সিকোয়েন্সে দীর্ঘ-পরিসরের সম্পর্ক কার্যকরভাবে ক্যাপচার করার জন্য পিরামিডাল অ্যাটেনশন ব্যবহার করে।
মাল্টি-হেড ক্রস অ্যাটেনশন
মাল্টি-হেড মেকানিজমের এক্সটেনশন যেখানে প্রতিটি হেড মডালিটিগুলির মধ্যে বিভিন্ন ক্রস-মডাল ম্যাপিং শেখে। বহু-মডাল ট্রান্সফরমার আর্কিটেকচারে আরও সমৃদ্ধ এবং বৈচিত্র্যময় আন্তঃ-মডাল সম্পর্ক ক্যাপচার করার সুবিধা দেয়।