पात्रता ट्रेस
टीडी (λ) एल्गोरिथम
समय-अंतर शिक्षण एल्गोरिथ्म जो टीडी (0) और मॉन्टे कार्लो के फायदों को एकीकृत करता है जिसमें एलीगिबिलिटी ट्रेस के घटते प्रभाव को नियंत्रित करने के लिए एक पैरामीटर λ का उपयोग होता है।
← पीछे