অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
ক্রমবর্ধমান পুরস্কার
ভবিষ্যতের প্রত্যাশিত পুরস্কারের সমষ্টি যা এজেন্ট সর্বাধিক করতে চায়, প্রায়শই দূরবর্তী পুরস্কারগুলিকে কম গুরুত্ব দেওয়ার জন্য একটি ডিসকাউন্ট ফ্যাক্টর দিয়ে গণনা করা হয়।
← ফিরে যান