অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
SARSA অ্যালগরিদম
একটি অন-পলিসি শক্তিবৃদ্ধি শিক্ষণ অ্যালগরিদম যা স্টেট-অ্যাকশন-রিওয়ার্ড-স্টেট-অ্যাকশন ক্রমের উপর ভিত্তি করে Q মান আপডেট করে, Q-লার্নিংয়ের বিপরীতে।
← ফিরে যান