এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং
একটি শিক্ষণ দৃষ্টান্ত যেখানে বিভিন্ন কাজের জন্য একাধিক নীতি একইসঙ্গে স্থির ব্যাচ ডেটাসেট থেকে শেখা হয়, পরিবেশের সাথে মিথস্ক্রিয়া ছাড়াই।
ব্যাচ মাল্টি-টাস্ক লার্নিং
একটি পদ্ধতি যেখানে এজেন্ট পূর্বে সংগৃহীত ডেটা ব্যবহার করে একাধিক কাজ সমাধান করতে শেখে, প্রশিক্ষণের সময় অনলাইন অনুসন্ধান ছাড়াই।
শেয়ার্ড ডেটাসেট পলিসি অপ্টিমাইজেশন
একটি কৌশল যেখানে একাধিক নীতির উন্নতি করার জন্য অভিজ্ঞতার একটি সাধারণ ডেটা পুল ব্যবহার করা হয়, কাজগুলির মধ্যে শিক্ষণ দক্ষতা বৃদ্ধির জন্য।
টাস্ক-অ্যাগনস্টিক রিপ্রেজেন্টেশন লার্নিং
একটি প্রক্রিয়া যেখানে ব্যাচ ডেটা থেকে সাধারণীকরণযোগ্য অবস্থা-ক্রিয়া উপস্থাপনা শেখা হয়, ভবিষ্যতের কাজ সম্পর্কে নির্দিষ্ট জ্ঞান ছাড়াই।
কনজারভেটিভ মাল্টি-টাস্ক পলিসি অপ্টিমাইজেশন
একটি পদ্ধতি যা নিশ্চিত করে যে মাল্টি-টাস্ক নীতিগুলি ব্যাচ ডেটাসেটে পর্যবেক্ষিত আচরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত হবে না, সাপোর্টের বাইরের বিতরণ এড়ানোর জন্য।
মাল্টি-টাস্ক ব্যাচ কনস্ট্রেইন্ড কিউ-লার্নিং
BCQ-এর একটি সম্প্রসারণ যা মাল্টি-টাস্ক প্রেক্ষাপটে কাজ করে, যেখানে Q ফাংশন ব্যাচ ডেটা দ্বারা সীমাবদ্ধ থাকে এবং কাজগুলির মধ্যে জ্ঞান ভাগ করে নেয়।
মাল্টি-টাস্ক ডিস্ট্রিবিউশনাল আরএল
একটি কাঠামো যা অফলাইন মাল্টি-টাস্ক প্রেক্ষাপটে প্রতিটি কাজের জন্য প্রত্যাশার পরিবর্তে পুরো রিটার্নের বিতরণ মডেল করে।
অফলাইন মাল্টি-টাস্ক মেটা-লার্নিং
মাল্টি-টাস্ক ব্যাচ ডেটাসেট থেকে মেটা-জ্ঞান শেখা, যাতে অল্প ডেটা দিয়ে নতুন কাজে দ্রুত অভিযোজন সম্ভব হয়।
টাস্ক ডিকাপলিং
একটি কৌশল যা টাস্ক-নির্দিষ্ট উপস্থাপনাগুলিকে ভাগ করা জ্ঞান থেকে আলাদা করে অফলাইন মাল্টি-টাস্ক লার্নিংকে অপ্টিমাইজ করে।
মাল্টি-টাস্ক অফলাইন ইভালুয়েশন মেট্রিক্স
নির্দিষ্ট পরিমাপ যা মিথস্ক্রিয়া ছাড়াই মাল্টি-টাস্ক নীতিগুলির কার্যকারিতা মূল্যায়ন করে, যেমন মাল্টি-টাস্ক FQE বা ওজনযুক্ত ইম্পর্টেন্স স্যাম্পলিং।
টাস্ক-স্পেসিফিক পলিসি হেডস
নেটওয়ার্ক আর্কিটেকচার যেখানে একটি সাধারণ শেয়ার্ড ব্যাকবোন এবং প্রতিটি টাস্কের জন্য আলাদা আউটপুট হেড থাকে অফলাইন মাল্টি-টাস্ক লার্নিংয়ে।
মাল্টি-টাস্ক অফলাইন ডেটা এফিসিয়েন্সি
একক-টাস্ক লার্নিংয়ের তুলনায় ব্যাচ ডেটা ব্যবহার করে একাধিক নীতি শেখার দক্ষতা পরিমাপ।
ক্রস-টাস্ক নলেজ ট্রান্সফার
শেয়ার্ড ব্যাচ ডেটাসেট থেকে শেখার সময় বিভিন্ন টাস্কের মধ্যে স্বয়ংক্রিয়ভাবে উপকারী জ্ঞান স্থানান্তরের প্রক্রিয়া।
মাল্টি-টাস্ক অফলাইন ভ্যালু ফাংশন ফ্যাক্টরাইজেশন
অফলাইন মাল্টি-টাস্ক লার্নিং উন্নত করার জন্য ভ্যালু ফাংশনকে শেয়ার্ড এবং টাস্ক-স্পেসিফিক উপাদানে বিভক্ত করা।
অফলাইন সেটিংসে টাস্ক ক্লাস্টারিং
জ্ঞান ভাগাভাগি এবং রিসোর্স বরাদ্দ অপ্টিমাইজ করার জন্য ব্যাচ ডেটার উপর ভিত্তি করে অনুরূপ টাস্কগুলির স্বয়ংক্রিয় গোষ্ঠীবদ্ধকরণ।
মাল্টি-টাস্ক অফলাইন এক্সপ্লোরেশন-এক্সপ্লয়টেশন
অফলাইন প্রেক্ষাপটে অভিযোজিত দ্বিধা যেখানে বিদ্যমান ডেটা ব্যবহারের এবং নিয়ন্ত্রিত এক্সট্রাপোলেশনের মধ্যে ভারসাম্য একাধিক টাস্কের জন্য পরিচালিত হয়।
Shared Dynamics Model
ব্যাচ মাল্টি-টাস্ক ডেটা থেকে শেখা একটি একক ট্রানজিশন মডেল যা পরিবেশের সাধারণ এবং নির্দিষ্ট গতিশীলতাগুলোকে ধারণ করে।
Multi-Task Offline Curriculum Learning
অফলাইন প্রশিক্ষণের সময় স্বয়ংক্রিয়ভাবে কাজের ক্রম নির্ধারণ, যা তাদের কঠিনতা এবং পারস্পরিক নির্ভরতার উপর ভিত্তি করে শেখার প্রক্রিয়াকে অপ্টিমাইজ করে।