गहरा निर्धारक नीति ढाल (DDPG) - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

ऑफ-पॉलिसी लर्निंग

एक विधि जिसमें एजेंट एक अन्य व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखता है, जिससे बेहतर अन्वेषण की अनुमति मिलती है।

📖

शब्द

टारगेट नेटवर्क्स

अधिक सुसंगत लक्ष्य प्रदान करके सीखने को स्थिर करने के लिए धीरे-धीरे अपडेट होने वाले वजन के साथ नकली तंत्रिका नेटवर्क।

📖

शब्द

ओर्नस्टाइन-उहलेनबेक प्रक्रिया

क्रियाओं में समय के साथ सहसंबंधित शोर उत्पन्न करने के लिए उपयोग किया जाने वाला एक स्टोकास्टिक प्रक्रिया, जो निरंतर स्थानों में प्रभावी अन्वेषण को बढ़ावा देता है।

📖

शब्द

निरंतर क्रिया स्थान

एक वातावरण जहां क्रियाएं एक निरंतर अंतराल में कोई भी मान ले सकती हैं, जिसके लिए असतत क्रियाओं के विपरीत उपयुक्त एल्गोरिदम की आवश्यकता होती है।

📖

शब्द

तंत्रिका नेटवर्क फ़ंक्शन अनुमान

रीइन्फोर्समेंट लर्निंग में नीतियों या मूल्य फ़ंक्शन जैसे जटिल फ़ंक्शन का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग।

📖

शब्द

सॉफ्ट अपडेट

मुख्य और लक्ष्य नेटवर्क के वजन को धीरे-धीरे मिश्रित करने के लिए एक टाउ (τ) गुणांक का उपयोग करके लक्ष्य नेटवर्क को धीरे-धीरे अपडेट करने की विधि।

📖

शब्द

एक्टर नेटवर्क

एक तंत्रिका नेटवर्क जो एक निरंतर क्रिया स्थान में सीधे अवस्थाओं को इष्टतम क्रियाओं में मैप करना सीखता है।

📖

शब्द

नियतात्मक नीति

प्रायिकता वितरण लौटाने वाली स्टोकास्टिक नीतियों के विपरीत, एक ऐसी नीति जो प्रत्येक अवस्था को एक विशिष्ट क्रिया से जोड़ती है।

📖

शब्द

एक्शन नॉइज

एक्टर द्वारा उत्पादित क्रियाओं में जोड़ा गया शोर जो प्रशिक्षण के दौरान निरंतर क्रिया स्थान की खोज को प्रोत्साहित करने के लिए होता है।

एआई शब्दावली

ऑफ-पॉलिसी लर्निंग

टारगेट नेटवर्क्स

ओर्नस्टाइन-उहलेनबेक प्रक्रिया

निरंतर क्रिया स्थान

तंत्रिका नेटवर्क फ़ंक्शन अनुमान

सॉफ्ट अपडेट

एक्टर नेटवर्क

नियतात्मक नीति

एक्शन नॉइज

कोई परिणाम नहीं मिला