गहरा निर्धारक नीति ढाल (DDPG)
ऑफ-पॉलिसी लर्निंग
एक विधि जिसमें एजेंट एक अन्य व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखता है, जिससे बेहतर अन्वेषण की अनुमति मिलती है।
← पीछेएक विधि जिसमें एजेंट एक अन्य व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखता है, जिससे बेहतर अन्वेषण की अनुमति मिलती है।
← पीछे