सुदृढीकरण द्वारा सक्रिय अधिगम
ऑफ-पॉलिसी प्रबलन अधिगम
एक ऐसी विधि जो व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखने की अनुमति देती है, जो लचीली खोज के लिए उपयोगी है।
← पीछेएक ऐसी विधि जो व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखने की अनुमति देती है, जो लचीली खोज के लिए उपयोगी है।
← पीछे