Policy Gradient Methods
इम्पोर्टेंस सैंपलिंग
तकनीक जो पुरानी पॉलिसी से एकत्रित डेटा का उपयोग नई पॉलिसी को अपडेट करने के लिए करने की अनुमति देती है, नमूनों को पॉलिसी की संभावना अनुपात के अनुसार वजन देकर।
← पीछे