Apprentissage Temporel Différentiel
সারসা
একটি অন-পলিসি টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা (স্টেট, অ্যাকশন, রিওয়ার্ড, নেক্সট স্টেট, নেক্সট অ্যাকশন) এই পাঁচটি উপাদান ব্যবহার করে অ্যাকশন-স্টেট ভ্যালু আপডেট করে।
← ফিরে যান