एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
पॉलिसी ग्रेडिएंट
एक प्रत्यक्ष अनुकूलन विधि जो अपेक्षित प्रतिफल के ग्रेडिएंट का पालन करके नीति के पैरामीटर को समायोजित करती है, जिससे स्टोचैस्टिक नीतियों का सीखना संभव होता है बिना वातावरण के मॉडल की आवश्यकता के।
रीइन्फोर्स एल्गोरिथम
पॉलिसी ग्रेडिएंट का मूल एल्गोरिथम जो ग्रेडिएंट के मोंटे कार्लो अनुमान का उपयोग करके पूर्ण रूप से देखे गए एपिसोड के अनुसार नीति के पैरामीटर को अपडेट करता है।
एक्टर-क्रिटिक विधियां
एक हाइब्रिड दृष्टिकोण जो एक एक्टर जो नीति सीखता है और एक क्रिटिक जो मूल्य फ़ंक्शन का अनुमान लगाता है को जोड़ती है, जिससे पॉलिसी ग्रेडिएंट के अनुमानों का वैरियंस कम हो जाता है।
लाभ फ़ंक्शन
किसी दिए गए अवस्था में क्रियाओं के औसत की तुलना में किसी क्रिया की श्रेष्ठता का माप, जिसे Q फ़ंक्शन और V फ़ंक्शन के बीच के अंतर के रूप में ग्रेडिएंट के वैरियंस को कम करने के लिए गणना की जाती है।
प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)
एल्गोरिथम जो नीति को अनुकूलित करता है जिसमें अपडेट को पिछली नीति के करीब रहने के लिए बाध्य किया जाता है, जिसमें क्लिप्ड ऑब्जेक्टिव फ़ंक्शन का उपयोग सीखने की स्थिरता सुनिश्चित करने के लिए किया जाता है।
ट्रस्ट रीजन पॉलिसी ऑप्टिमाइज़ेशन (TRPO)
एक विधि जो प्रदर्शन में एकतरफा सुधार की गारंटी देती है जिसमें नीति को एक विश्वास क्षेत्र में अनुकूलित किया जाता है जो क्रमिक नीतियों के बीच KL डाइवर्जेंस द्वारा परिभाषित होता है।
प्राकृतिक पॉलिसी ग्रेडिएंट
पॉलिसी ग्रेडिएंट का एक वेरिएंट जो पैरामीटराइज़ेशन के प्रति अपरिवर्तनीय अपडेट करने के लिए फिशर मेट्रिक का उपयोग करता है, जो अधिक स्थिर और प्रभावी अभिसरण की गारंटी देता है।
पॉलिसी नेटवर्क
एक पैरामीटराइज्ड न्यूरल नेटवर्क जो नीति π(a|s; θ) का प्रतिनिधित्व करता है, जो वर्तमान अवस्था के आधार पर क्रियाओं पर संभाव्यता वितरण उत्पन्न करता है।
मोंटे कार्लो पॉलिसी ग्रेडिएंट
ग्रेडिएंट का अनुमान लगाने की तकनीक जो रिटर्न की गणना करने के लिए पूर्ण ट्रैजेक्टरी का उपयोग करती है, जो बिना बायस के अनुमान की अनुमति देती है लेकिन उच्च वेरिएंस के साथ।
बेसलाइन फंक्शन
रिटर्न से घटाई गई फंक्शन जो बिना बायस पेश किए ग्रेडिएंट के अनुमान के वेरिएंस को कम करती है, आमतौर पर स्टेट वैल्यू फंक्शन।
इम्पोर्टेंस सैंपलिंग
तकनीक जो पुरानी पॉलिसी से एकत्रित डेटा का उपयोग नई पॉलिसी को अपडेट करने के लिए करने की अनुमति देती है, नमूनों को पॉलिसी की संभावना अनुपात के अनुसार वजन देकर।
एंट्रॉपी रेग्युलराइजेशन
बहुत निर्धारक पॉलिसी को दंडित करके एक्सप्लोरेशन को प्रोत्साहित करने के लिए ऑब्जेक्टिव फंक्शन में एंट्रॉपी के टर्म को जोड़ना, लर्निंग की मजबूती में सुधार।
डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट
कंटीन्यूएस एक्शन स्पेस में पॉलिसी ग्रेडिएंट का विस्तार जहां पॉलिसी निर्धारक है, विशेष रूप से उच्च आयामी वातावरण में प्रभावी।
स्टोचस्टिक पॉलिसी
एक्शन पर संभावना वितरण π(a|s) द्वारा दर्शाई गई पॉलिसी, जो इंट्रिन्सिक एक्सप्लोरेशन की अनुमति देती है और पॉलिसी ग्रेडिएंट मेथड के लिए आवश्यक है।
केएल डाइवर्जेंस कंस्ट्रेंट
स्थिर अपडेट सुनिश्चित करने और व्यवहार में बहुत बड़े परिवर्तन से बचने के लिए क्रमिक पॉलिसी के बीच कुलबैक-लेबलर डाइवर्जेंस को सीमित करने वाली कंस्ट्रेंट।
जनरलाइज्ड एडवांटेज एस्टिमेशन (GAE)
बायस और वेरिएंस को मल्टी-स्टेप एस्टिमेटर के भारित औसत द्वारा जोड़कर एडवांटेज का अनुमान लगाने की विधि, जो लर्निंग के लिए इष्टतम समझौता प्रदान करती है।
पॉलिसी ग्रेडिएंट प्रमेय
यह एक मौलिक प्रमेय है जो नीति के पैरामीटर के संबंध में अपेक्षित प्रतिफल के ग्रेडिएंट का एक विश्लेषणात्मक व्यंजन प्रदान करता है, जो विधियों की तात्विक आधार तैयार करता है।
रिटर्न-टू-गो
यह एक दिए गए समय चरण से भविष्य के छूट दिए गए इनामों का योग है, जिसका उपयोग पॉलिसी ग्रेडिएंट एल्गोरिदम में ग्रेडिएंट के अनुमानक के रूप में किया जाता है।