Apprentissage Temporel Différentiel
কন্ট্রোল টিডি
নিয়ন্ত্রণ সমস্যায় টিডি পদ্ধতির সম্প্রসারণ, যেখানে এজেন্টকে কেবল অবস্থার মূল্যায়নই নয় বরং ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য একটি সর্বোত্তম কর্ম নীতি শেখাও প্রয়োজন।
← ফিরে যান