अलग-अलग सीखना
कंट्रोल टीडी
टीडी विधियों का नियंत्रण समस्याओं में विस्तार, जहां एजेंट को केवल स्थितियों का मूल्यांकन करना होता है बल्कि संचित पुरस्कारों को अधिकतम करने के लिए एक इष्टतम क्रिया नीति सीखनी भी होती है।
← पीछे