এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ALBEF (Align Before Fuse)
একটি উদ্ভাবনী স্থাপত্য যা পারফরম্যান্স উন্নত করতে মোমেন্টাম ডিস্টিলেশন ব্যবহার করে একটি ভাগ করা স্থানে প্রথমে টেক্সট-ইমেজ উপস্থাপনা সারিবদ্ধ করে তারপর সেগুলো ফিউজ করে।
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
প্রাকৃতিক ভাষা দ্বারা মডুলেটেড এন্ড-টু-এন্ড অবজেক্ট ডিটেকশন আর্কিটেকচার, যা ইমেজে অবজেক্ট সনাক্তকরণ এবং লোকালাইজেশনের জন্য জটিল টেক্সচুয়াল কোয়েরি অনুমোদন করে।
UNITER (UNiversal Image-TExt Representation)
ইমেজ-টেক্সট ম্যাচিং, মাস্কড ল্যাঙ্গুয়েজ মডেলিং, মাস্কড রিজিওন মডেলিং এবং ওয়ার্ড-রিজিওন ম্যাচিং - এই ৪টি বড় মাল্টিমোডাল টাস্কে প্রি-ট্রেইনড মডেল ইউনিভার্সাল ভিশন-ল্যাঙ্গুয়েজ বোঝার জন্য।
VILLA (Vision-and-Language Large-scale model)
ভিশন-ল্যাঙ্গুয়েজ বোঝার টাস্কের জন্য ইউনিফাইড ট্রান্সফরমার আর্কিটেকচার সহ বড় স্কেলে প্রি-ট্রেইনড মডেল, ক্রস মাস্কড প্রি-ট্রেনিং ব্যবহার করে।
FLAVA (Foundational Language and Vision Alignment)
একটি সাধারণ ট্রান্সফরমার আর্কিটেকচার সহ ইউনিফাইড ফাউন্ডেশনাল মাল্টিমোডাল মডেল, যা একই সাথে শুধুমাত্র টেক্সট, শুধুমাত্র ইমেজ এবং মাল্টিমোডাল ডেটাতে প্রি-ট্রেইন করা হয়।
Oscar (Object-Semantics Aligned Pre-training)
প্রি-ট্রেনিং পদ্ধতি যা টেক্সট এবং ইমেজ সারিবদ্ধ করার জন্য সেমান্টিক অ্যাঙ্কর হিসেবে শনাক্তকৃত অবজেক্ট ট্যাগ প্রবর্তন করে, মাল্টিমোডাল বোঝার উল্লেখযোগ্যভাবে উন্নতি করে।
VinVL (Vision and Language Pre-training with enhanced Visual features)
একটি বড় স্কেল অবজেক্ট ডিটেক্টর এবং অ্যাট্রিবিউটস দিয়ে ভিজুয়াল ফিচার উন্নত করার ফ্রেমওয়ার্ক, V+L বেঞ্চমার্কে স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স অর্জন করে।
BridgeTower
ইউনিমোডাল এনকোডারগুলোর মধ্যে ব্রিজ প্রবর্তনকারী আর্কিটেকচার যা মোডালিটির মধ্যে গভীর ইন্টারঅ্যাকশন সহজতর করে, বিভিন্ন স্তরে টেক্সট-ইমেজ তথ্য বিনিময় অপ্টিমাইজ করে।
Pix2Struct
স্ক্রিনশট পার্সিং টাস্কে প্রি-ট্রেইন্ড ট্রান্সফরমার মডেল, যা ইউজার ইন্টারফেস, ডায়াগ্রাম এবং ভিজুয়ালি স্ট্রাকচার্ড ডকুমেন্টস বুঝতে অসাধারণ দক্ষতা প্রদর্শন করে।
PaLI (পাথওয়েজ ল্যাঙ্গুয়েজ অ্যান্ড ইমেজ মডেল)
পাথওয়েজ ভিত্তিক বিশাল মাল্টিমোডাল মডেল, যা ভিজুয়াল ট্রান্সলেশন এবং ভিজুয়াল প্রশ্নোত্তর টাস্কের জন্য একটি ইমেজ এনকোডার এবং টেক্সট এনকোডার-ডিকোডারকে একত্রিত করে।