মাল্টিমোডাল ট্রান্সফরমার - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

ALBEF (Align Before Fuse)

একটি উদ্ভাবনী স্থাপত্য যা পারফরম্যান্স উন্নত করতে মোমেন্টাম ডিস্টিলেশন ব্যবহার করে একটি ভাগ করা স্থানে প্রথমে টেক্সট-ইমেজ উপস্থাপনা সারিবদ্ধ করে তারপর সেগুলো ফিউজ করে।

📖

শব্দ

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

প্রাকৃতিক ভাষা দ্বারা মডুলেটেড এন্ড-টু-এন্ড অবজেক্ট ডিটেকশন আর্কিটেকচার, যা ইমেজে অবজেক্ট সনাক্তকরণ এবং লোকালাইজেশনের জন্য জটিল টেক্সচুয়াল কোয়েরি অনুমোদন করে।

📖

শব্দ

UNITER (UNiversal Image-TExt Representation)

ইমেজ-টেক্সট ম্যাচিং, মাস্কড ল্যাঙ্গুয়েজ মডেলিং, মাস্কড রিজিওন মডেলিং এবং ওয়ার্ড-রিজিওন ম্যাচিং - এই ৪টি বড় মাল্টিমোডাল টাস্কে প্রি-ট্রেইনড মডেল ইউনিভার্সাল ভিশন-ল্যাঙ্গুয়েজ বোঝার জন্য।

📖

শব্দ

VILLA (Vision-and-Language Large-scale model)

ভিশন-ল্যাঙ্গুয়েজ বোঝার টাস্কের জন্য ইউনিফাইড ট্রান্সফরমার আর্কিটেকচার সহ বড় স্কেলে প্রি-ট্রেইনড মডেল, ক্রস মাস্কড প্রি-ট্রেনিং ব্যবহার করে।

📖

শব্দ

FLAVA (Foundational Language and Vision Alignment)

একটি সাধারণ ট্রান্সফরমার আর্কিটেকচার সহ ইউনিফাইড ফাউন্ডেশনাল মাল্টিমোডাল মডেল, যা একই সাথে শুধুমাত্র টেক্সট, শুধুমাত্র ইমেজ এবং মাল্টিমোডাল ডেটাতে প্রি-ট্রেইন করা হয়।

📖

শব্দ

Oscar (Object-Semantics Aligned Pre-training)

প্রি-ট্রেনিং পদ্ধতি যা টেক্সট এবং ইমেজ সারিবদ্ধ করার জন্য সেমান্টিক অ্যাঙ্কর হিসেবে শনাক্তকৃত অবজেক্ট ট্যাগ প্রবর্তন করে, মাল্টিমোডাল বোঝার উল্লেখযোগ্যভাবে উন্নতি করে।

📖

শব্দ

VinVL (Vision and Language Pre-training with enhanced Visual features)

একটি বড় স্কেল অবজেক্ট ডিটেক্টর এবং অ্যাট্রিবিউটস দিয়ে ভিজুয়াল ফিচার উন্নত করার ফ্রেমওয়ার্ক, V+L বেঞ্চমার্কে স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স অর্জন করে।

📖

শব্দ

BridgeTower

ইউনিমোডাল এনকোডারগুলোর মধ্যে ব্রিজ প্রবর্তনকারী আর্কিটেকচার যা মোডালিটির মধ্যে গভীর ইন্টারঅ্যাকশন সহজতর করে, বিভিন্ন স্তরে টেক্সট-ইমেজ তথ্য বিনিময় অপ্টিমাইজ করে।

📖

শব্দ

Pix2Struct

স্ক্রিনশট পার্সিং টাস্কে প্রি-ট্রেইন্ড ট্রান্সফরমার মডেল, যা ইউজার ইন্টারফেস, ডায়াগ্রাম এবং ভিজুয়ালি স্ট্রাকচার্ড ডকুমেন্টস বুঝতে অসাধারণ দক্ষতা প্রদর্শন করে।

📖

শব্দ

PaLI (পাথওয়েজ ল্যাঙ্গুয়েজ অ্যান্ড ইমেজ মডেল)

পাথওয়েজ ভিত্তিক বিশাল মাল্টিমোডাল মডেল, যা ভিজুয়াল ট্রান্সলেশন এবং ভিজুয়াল প্রশ্নোত্তর টাস্কের জন্য একটি ইমেজ এনকোডার এবং টেক্সট এনকোডার-ডিকোডারকে একত্রিত করে।

এআই গ্লসারি

ALBEF (Align Before Fuse)

MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)

UNITER (UNiversal Image-TExt Representation)

VILLA (Vision-and-Language Large-scale model)

FLAVA (Foundational Language and Vision Alignment)

Oscar (Object-Semantics Aligned Pre-training)

VinVL (Vision and Language Pre-training with enhanced Visual features)

BridgeTower

Pix2Struct

PaLI (পাথওয়েজ ল্যাঙ্গুয়েজ অ্যান্ড ইমেজ মডেল)

কোন ফলাফল পাওয়া যায়নি