Transformers Multimodaux - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

টোকেন ফিউশন

বিভিন্ন মডালিটি থেকে আগত টোকেনগুলিকে ট্রান্সফরমার স্তরগুলির মাধ্যমে প্রক্রিয়াকরণের পূর্বে সংযুক্ত বা একত্রিত করার কৌশল। উন্নত যৌথ উপস্থাপনার জন্য বহু-মডাল তথ্যের প্রাথমিক একীকরণের সুবিধা দেয়।

📖

শব্দ

ALIGN

স্বয়ংক্রিয়ভাবে ফিল্টার করা এক বিলিয়ন নয়েজি জোড়ার উপর প্রশিক্ষিত একটি কনট্রাস্টিভ ইমেজ-টেক্সট মডেল। প্রদর্শন করে যে বৃহৎ-স্কেল বহু-মডাল শেখার ক্ষেত্রে ডেটার পরিমাণ নয়েজের ক্ষতিপূরণ দিতে পারে।

📖

শব্দ

ভিশন-ল্যাঙ্গুয়েজ মডেল যা বিদ্যমান প্রি-ট্রেইন্ড ট্রান্সফরমারগুলিকে ভিজুয়াল-লিঙ্গুয়িস্টিক অ্যাটেনশন মডিউল দিয়ে অভিযোজিত করে। সম্পূর্ণ পুনঃপ্রশিক্ষণ ছাড়াই জটিল বহু-মডাল বোঝার কাজগুলিতে ফিউ-শট লার্নিংয়ের সুবিধা দেয়।

📖

শব্দ

ক্রস-মডাল রিপ্রেজেন্টেশন

শেয়ার্ড ভেক্টর স্পেস যেখানে বিভিন্ন মডালিটির এম্বেডিংগুলি আন্তঃ-মডাল ইন্টারঅ্যাকশন সক্ষম করার জন্য সিম্যান্টিক্যালি এলাইন করা হয়। টেক্সট, ইমেজ, অডিও এবং ভিডিওর মধ্যে জ্ঞান স্থানান্তর এবং একীভূত বোঝাপড়া সহজ করে।

📖

শব্দ

MViT (মাল্টিস্কেল ভিশন ট্রান্সফরমার)

ভিডিও ট্রান্সফরমার আর্কিটেকচার যা একাধিক টেম্পোরাল এবং স্পেশিয়াল স্কেলের বৈশিষ্ট্যগুলিকে একত্রিত করে। ভিডিও সিকোয়েন্সে দীর্ঘ-পরিসরের সম্পর্ক কার্যকরভাবে ক্যাপচার করার জন্য পিরামিডাল অ্যাটেনশন ব্যবহার করে।

📖

শব্দ

মাল্টি-হেড ক্রস অ্যাটেনশন

মাল্টি-হেড মেকানিজমের এক্সটেনশন যেখানে প্রতিটি হেড মডালিটিগুলির মধ্যে বিভিন্ন ক্রস-মডাল ম্যাপিং শেখে। বহু-মডাল ট্রান্সফরমার আর্কিটেকচারে আরও সমৃদ্ধ এবং বৈচিত্র্যময় আন্তঃ-মডাল সম্পর্ক ক্যাপচার করার সুবিধা দেয়।

এআই গ্লসারি

টোকেন ফিউশন

ALIGN

ফ্ল্যামিঙ্গো

ক্রস-মডাল রিপ্রেজেন্টেশন

MViT (মাল্টিস্কেল ভিশন ট্রান্সফরমার)

মাল্টি-হেড ক্রস অ্যাটেনশন

কোন ফলাফল পাওয়া যায়নি