Apprentissage Temporel Différentiel
টিডি রিটার্ন
একটি প্রদত্ত স্টেট থেকে প্রত্যাশিত রিটার্নের এস্টিমেশন, যা তাত্ক্ষণিক রিওয়ার্ড এবং ভবিষ্যত ভ্যালু এস্টিমেশনকে টেম্পোরাল ডিফারেন্স পদ্ধতি অনুযায়ী সংযুক্ত করে গণনা করা হয়।
← ফিরে যান