Apprentissage Temporel Différentiel
এন-স্টেপ টিডি
টেম্পোরাল ডিফারেন্স শেখার সাধারণীকরণ যা আপডেট গণনা করতে n সংখ্যক ভবিষ্যত ধাপ ব্যবহার করে, TD(0) এবং সম্পূর্ণ মন্টে কার্লো পদ্ধতির মধ্যে একটি সমঝোতা প্রদান করে।
← ফিরে যান