रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
संचयी पुरस्कार
भविष्य के अपेक्षित पुरस्कारों का योग जिसे एजेंट अधिकतम करना चाहता है, अक्सर दूर के पुरस्कारों को कम महत्व देने के लिए छूट कारक के साथ गणना की जाती है।
← पीछे