অফলাইন রিইনফোর্সমেন্ট লার্নিং - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📂

উপ-বিভাগ

কনজারভেটিভ কিউ-লার্নিং (সিকিউএল)

একটি পদ্ধতি যা কিউ-মানের অতিরিক্ত অনুমানকে শাস্তি দেয় যাতে নীতি ডেটার বিতরণের কাছাকাছি থাকে।

18 শব্দ

📂

উপ-বিভাগ

ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)

একটি পদ্ধতি যা ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলির কাছাকাছি থাকার জন্য ক্রিয়াগুলিকে সীমাবদ্ধ করে ডিস্ট্রিবিউশন শিফট এড়াতে।

17 শব্দ

📂

উপ-বিভাগ

ডিসিশন ট্রান্সফরমার

ট্রান্সফরমার আর্কিটেকচার যা অফলাইন রিইনফোর্সমেন্ট লার্নিংকে একটি সিকোয়েন্স-টু-সিকোয়েন্স সমস্যা হিসেবে বিবেচনা করে।

11 শব্দ

📂

উপ-বিভাগ

অন্তর্নিহিত Q-লার্নিং (IQL)

একটি পদ্ধতি যা স্পষ্ট ম্যাক্স অপারেটরের প্রয়োজন ছাড়াই অন্তর্নিহিতভাবে Q ফাংশন শেখে।

13 শব্দ

📂

উপ-বিভাগ

মডেল-ভিত্তিক অফলাইন রিইনফোর্সমেন্ট লার্নিং

পরিবেশের শেখা মডেল ব্যবহার করে বিতরণের বাইরে নমুনা উন্নত করার পদ্ধতি।

10 শব্দ

📂

উপ-বিভাগ

অফলাইন-টু-অনলাইন ট্রান্সফার লার্নিং

অফলাইন থেকে অনলাইন সেটিংসে কার্যকরভাবে শিক্ষা স্থানান্তরের কৌশল।

6 শব্দ

📂

উপ-বিভাগ

বিতরণমূলক অফলাইন আরএল

শুধুমাত্র গাণিতিক প্রত্যাশার পরিবর্তে পুরো রিটার্নের বিতরণ মডেলিং করা পদ্ধতিগুলি।

13 শব্দ

📂

উপ-বিভাগ

অফলাইন রিইনফোর্সমেন্ট লার্নিং নিরাপদে

শুধুমাত্র স্থির ডেটার উপর শেখা নীতিগুলি প্রয়োগের সময় নিরাপত্তা নিশ্চিত করার পদ্ধতি।

11 শব্দ

📂

উপ-বিভাগ

অনিশ্চয়তা-সচেতন অফলাইন রিইনফোর্সমেন্ট লার্নিং

বিতরণের বাইরের ক্রিয়াকলাপ এড়াতে জ্ঞানগত অনিশ্চয়তা পরিমাপকারী পদ্ধতি।

17 শব্দ

📂

উপ-বিভাগ

ট্র্যাজেক্টরি ট্রান্সফরমার

ট্রান্সফরমার মডেল যা অবস্থা-কর্ম-পুরস্কার ক্রমের বিতরণ শিখে সম্পূর্ণ ট্র্যাজেক্টরি তৈরি করে।

6 শব্দ

📂

উপ-বিভাগ

অ্যাডভান্টেজ-ওয়েটেড রিগ্রেশন (AWR)

অ্যাকশন নির্বাচন উন্নত করার জন্য সুবিধার ভিত্তিতে রিগ্রেশনকে ওজন করার পদ্ধতি, বিতরণের বাইরের ক্ষেত্রেও।

11 শব্দ

📂

উপ-বিভাগ

অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং

ভাগ করা ব্যাচ ডেটাসেট থেকে একই সাথে একাধিক কাজ শেখার দৃষ্টান্ত।

18 শব্দ

এআই গ্লসারি

কনজারভেটিভ কিউ-লার্নিং (সিকিউএল)

ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)

ডিসিশন ট্রান্সফরমার

অন্তর্নিহিত Q-লার্নিং (IQL)

মডেল-ভিত্তিক অফলাইন রিইনফোর্সমেন্ট লার্নিং

অফলাইন-টু-অনলাইন ট্রান্সফার লার্নিং

বিতরণমূলক অফলাইন আরএল

অফলাইন রিইনফোর্সমেন্ট লার্নিং নিরাপদে

অনিশ্চয়তা-সচেতন অফলাইন রিইনফোর্সমেন্ট লার্নিং

ট্র্যাজেক্টরি ট্রান্সফরমার

অ্যাডভান্টেজ-ওয়েটেড রিগ্রেশন (AWR)

অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং

কোন ফলাফল পাওয়া যায়নি