अलग-अलग सीखना
टीडी मूल्य फ़ंक्शन
स्थितियों या क्रियाओं के अपेक्षित मूल्य का आवर्ती अनुमान, जो निरंतर टेम्पोरल डिफरेंस विधियों द्वारा इष्टतम मूल्य फ़ंक्शन के करीब लाने के लिए अद्यतन किया जाता है।
← पीछे