অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং

📖

শব্দ

একটি শিক্ষণ দৃষ্টান্ত যেখানে বিভিন্ন কাজের জন্য একাধিক নীতি একইসঙ্গে স্থির ব্যাচ ডেটাসেট থেকে শেখা হয়, পরিবেশের সাথে মিথস্ক্রিয়া ছাড়াই।

📖

শব্দ

ব্যাচ মাল্টি-টাস্ক লার্নিং

একটি পদ্ধতি যেখানে এজেন্ট পূর্বে সংগৃহীত ডেটা ব্যবহার করে একাধিক কাজ সমাধান করতে শেখে, প্রশিক্ষণের সময় অনলাইন অনুসন্ধান ছাড়াই।

📖

শব্দ

শেয়ার্ড ডেটাসেট পলিসি অপ্টিমাইজেশন

একটি কৌশল যেখানে একাধিক নীতির উন্নতি করার জন্য অভিজ্ঞতার একটি সাধারণ ডেটা পুল ব্যবহার করা হয়, কাজগুলির মধ্যে শিক্ষণ দক্ষতা বৃদ্ধির জন্য।

📖

শব্দ

টাস্ক-অ্যাগনস্টিক রিপ্রেজেন্টেশন লার্নিং

একটি প্রক্রিয়া যেখানে ব্যাচ ডেটা থেকে সাধারণীকরণযোগ্য অবস্থা-ক্রিয়া উপস্থাপনা শেখা হয়, ভবিষ্যতের কাজ সম্পর্কে নির্দিষ্ট জ্ঞান ছাড়াই।

📖

শব্দ

কনজারভেটিভ মাল্টি-টাস্ক পলিসি অপ্টিমাইজেশন

একটি পদ্ধতি যা নিশ্চিত করে যে মাল্টি-টাস্ক নীতিগুলি ব্যাচ ডেটাসেটে পর্যবেক্ষিত আচরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত হবে না, সাপোর্টের বাইরের বিতরণ এড়ানোর জন্য।

📖

শব্দ

মাল্টি-টাস্ক ব্যাচ কনস্ট্রেইন্ড কিউ-লার্নিং

BCQ-এর একটি সম্প্রসারণ যা মাল্টি-টাস্ক প্রেক্ষাপটে কাজ করে, যেখানে Q ফাংশন ব্যাচ ডেটা দ্বারা সীমাবদ্ধ থাকে এবং কাজগুলির মধ্যে জ্ঞান ভাগ করে নেয়।

📖

শব্দ

মাল্টি-টাস্ক ডিস্ট্রিবিউশনাল আরএল

একটি কাঠামো যা অফলাইন মাল্টি-টাস্ক প্রেক্ষাপটে প্রতিটি কাজের জন্য প্রত্যাশার পরিবর্তে পুরো রিটার্নের বিতরণ মডেল করে।

📖

শব্দ

অফলাইন মাল্টি-টাস্ক মেটা-লার্নিং

মাল্টি-টাস্ক ব্যাচ ডেটাসেট থেকে মেটা-জ্ঞান শেখা, যাতে অল্প ডেটা দিয়ে নতুন কাজে দ্রুত অভিযোজন সম্ভব হয়।

📖

শব্দ

টাস্ক ডিকাপলিং

একটি কৌশল যা টাস্ক-নির্দিষ্ট উপস্থাপনাগুলিকে ভাগ করা জ্ঞান থেকে আলাদা করে অফলাইন মাল্টি-টাস্ক লার্নিংকে অপ্টিমাইজ করে।

📖

শব্দ

মাল্টি-টাস্ক অফলাইন ইভালুয়েশন মেট্রিক্স

নির্দিষ্ট পরিমাপ যা মিথস্ক্রিয়া ছাড়াই মাল্টি-টাস্ক নীতিগুলির কার্যকারিতা মূল্যায়ন করে, যেমন মাল্টি-টাস্ক FQE বা ওজনযুক্ত ইম্পর্টেন্স স্যাম্পলিং।

📖

শব্দ

টাস্ক-স্পেসিফিক পলিসি হেডস

নেটওয়ার্ক আর্কিটেকচার যেখানে একটি সাধারণ শেয়ার্ড ব্যাকবোন এবং প্রতিটি টাস্কের জন্য আলাদা আউটপুট হেড থাকে অফলাইন মাল্টি-টাস্ক লার্নিংয়ে।

📖

শব্দ

মাল্টি-টাস্ক অফলাইন ডেটা এফিসিয়েন্সি

একক-টাস্ক লার্নিংয়ের তুলনায় ব্যাচ ডেটা ব্যবহার করে একাধিক নীতি শেখার দক্ষতা পরিমাপ।

📖

শব্দ

ক্রস-টাস্ক নলেজ ট্রান্সফার

শেয়ার্ড ব্যাচ ডেটাসেট থেকে শেখার সময় বিভিন্ন টাস্কের মধ্যে স্বয়ংক্রিয়ভাবে উপকারী জ্ঞান স্থানান্তরের প্রক্রিয়া।

📖

শব্দ

মাল্টি-টাস্ক অফলাইন ভ্যালু ফাংশন ফ্যাক্টরাইজেশন

অফলাইন মাল্টি-টাস্ক লার্নিং উন্নত করার জন্য ভ্যালু ফাংশনকে শেয়ার্ড এবং টাস্ক-স্পেসিফিক উপাদানে বিভক্ত করা।

📖

শব্দ

অফলাইন সেটিংসে টাস্ক ক্লাস্টারিং

জ্ঞান ভাগাভাগি এবং রিসোর্স বরাদ্দ অপ্টিমাইজ করার জন্য ব্যাচ ডেটার উপর ভিত্তি করে অনুরূপ টাস্কগুলির স্বয়ংক্রিয় গোষ্ঠীবদ্ধকরণ।

📖

শব্দ

মাল্টি-টাস্ক অফলাইন এক্সপ্লোরেশন-এক্সপ্লয়টেশন

অফলাইন প্রেক্ষাপটে অভিযোজিত দ্বিধা যেখানে বিদ্যমান ডেটা ব্যবহারের এবং নিয়ন্ত্রিত এক্সট্রাপোলেশনের মধ্যে ভারসাম্য একাধিক টাস্কের জন্য পরিচালিত হয়।

📖

শব্দ

Shared Dynamics Model

ব্যাচ মাল্টি-টাস্ক ডেটা থেকে শেখা একটি একক ট্রানজিশন মডেল যা পরিবেশের সাধারণ এবং নির্দিষ্ট গতিশীলতাগুলোকে ধারণ করে।

📖

শব্দ

Multi-Task Offline Curriculum Learning

অফলাইন প্রশিক্ষণের সময় স্বয়ংক্রিয়ভাবে কাজের ক্রম নির্ধারণ, যা তাদের কঠিনতা এবং পারস্পরিক নির্ভরতার উপর ভিত্তি করে শেখার প্রক্রিয়াকে অপ্টিমাইজ করে।

এআই গ্লসারি