মডেল-ভিত্তিক অফলাইন রিইনফোর্সমেন্ট লার্নিং
রক্ষণশীল নীতি অপ্টিমাইজেশন
একটি অ্যালগরিদম যা প্রশিক্ষণ ডেটার আচরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত নীতিগুলিকে স্পষ্টভাবে শাস্তি দেয় যাতে এক্সট্রাপোলেশন ত্রুটি এড়ানো যায়।
← ফিরে যান