এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কনজারভেটিভ কিউ-লার্নিং (সিকিউএল)
একটি পদ্ধতি যা কিউ-মানের অতিরিক্ত অনুমানকে শাস্তি দেয় যাতে নীতি ডেটার বিতরণের কাছাকাছি থাকে।
ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
একটি পদ্ধতি যা ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলির কাছাকাছি থাকার জন্য ক্রিয়াগুলিকে সীমাবদ্ধ করে ডিস্ট্রিবিউশন শিফট এড়াতে।
ডিসিশন ট্রান্সফরমার
ট্রান্সফরমার আর্কিটেকচার যা অফলাইন রিইনফোর্সমেন্ট লার্নিংকে একটি সিকোয়েন্স-টু-সিকোয়েন্স সমস্যা হিসেবে বিবেচনা করে।
অন্তর্নিহিত Q-লার্নিং (IQL)
একটি পদ্ধতি যা স্পষ্ট ম্যাক্স অপারেটরের প্রয়োজন ছাড়াই অন্তর্নিহিতভাবে Q ফাংশন শেখে।
মডেল-ভিত্তিক অফলাইন রিইনফোর্সমেন্ট লার্নিং
পরিবেশের শেখা মডেল ব্যবহার করে বিতরণের বাইরে নমুনা উন্নত করার পদ্ধতি।
অফলাইন-টু-অনলাইন ট্রান্সফার লার্নিং
অফলাইন থেকে অনলাইন সেটিংসে কার্যকরভাবে শিক্ষা স্থানান্তরের কৌশল।
বিতরণমূলক অফলাইন আরএল
শুধুমাত্র গাণিতিক প্রত্যাশার পরিবর্তে পুরো রিটার্নের বিতরণ মডেলিং করা পদ্ধতিগুলি।
অফলাইন রিইনফোর্সমেন্ট লার্নিং নিরাপদে
শুধুমাত্র স্থির ডেটার উপর শেখা নীতিগুলি প্রয়োগের সময় নিরাপত্তা নিশ্চিত করার পদ্ধতি।
অনিশ্চয়তা-সচেতন অফলাইন রিইনফোর্সমেন্ট লার্নিং
বিতরণের বাইরের ক্রিয়াকলাপ এড়াতে জ্ঞানগত অনিশ্চয়তা পরিমাপকারী পদ্ধতি।
ট্র্যাজেক্টরি ট্রান্সফরমার
ট্রান্সফরমার মডেল যা অবস্থা-কর্ম-পুরস্কার ক্রমের বিতরণ শিখে সম্পূর্ণ ট্র্যাজেক্টরি তৈরি করে।
অ্যাডভান্টেজ-ওয়েটেড রিগ্রেশন (AWR)
অ্যাকশন নির্বাচন উন্নত করার জন্য সুবিধার ভিত্তিতে রিগ্রেশনকে ওজন করার পদ্ধতি, বিতরণের বাইরের ক্ষেত্রেও।
অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং
ভাগ করা ব্যাচ ডেটাসেট থেকে একই সাথে একাধিক কাজ শেখার দৃষ্টান্ত।