एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
ऑफ-पॉलिसी लर्निंग
एक विधि जिसमें एजेंट एक अन्य व्यवहार नीति का पालन करते हुए एक इष्टतम नीति सीखता है, जिससे बेहतर अन्वेषण की अनुमति मिलती है।
टारगेट नेटवर्क्स
अधिक सुसंगत लक्ष्य प्रदान करके सीखने को स्थिर करने के लिए धीरे-धीरे अपडेट होने वाले वजन के साथ नकली तंत्रिका नेटवर्क।
ओर्नस्टाइन-उहलेनबेक प्रक्रिया
क्रियाओं में समय के साथ सहसंबंधित शोर उत्पन्न करने के लिए उपयोग किया जाने वाला एक स्टोकास्टिक प्रक्रिया, जो निरंतर स्थानों में प्रभावी अन्वेषण को बढ़ावा देता है।
निरंतर क्रिया स्थान
एक वातावरण जहां क्रियाएं एक निरंतर अंतराल में कोई भी मान ले सकती हैं, जिसके लिए असतत क्रियाओं के विपरीत उपयुक्त एल्गोरिदम की आवश्यकता होती है।
तंत्रिका नेटवर्क फ़ंक्शन अनुमान
रीइन्फोर्समेंट लर्निंग में नीतियों या मूल्य फ़ंक्शन जैसे जटिल फ़ंक्शन का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग।
सॉफ्ट अपडेट
मुख्य और लक्ष्य नेटवर्क के वजन को धीरे-धीरे मिश्रित करने के लिए एक टाउ (τ) गुणांक का उपयोग करके लक्ष्य नेटवर्क को धीरे-धीरे अपडेट करने की विधि।
एक्टर नेटवर्क
एक तंत्रिका नेटवर्क जो एक निरंतर क्रिया स्थान में सीधे अवस्थाओं को इष्टतम क्रियाओं में मैप करना सीखता है।
नियतात्मक नीति
प्रायिकता वितरण लौटाने वाली स्टोकास्टिक नीतियों के विपरीत, एक ऐसी नीति जो प्रत्येक अवस्था को एक विशिष्ट क्रिया से जोड़ती है।
एक्शन नॉइज
एक्टर द्वारा उत्पादित क्रियाओं में जोड़ा गया शोर जो प्रशिक्षण के दौरान निरंतर क्रिया स्थान की खोज को प्रोत्साहित करने के लिए होता है।