Policy Gradient Methods - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

पॉलिसी ग्रेडिएंट

एक प्रत्यक्ष अनुकूलन विधि जो अपेक्षित प्रतिफल के ग्रेडिएंट का पालन करके नीति के पैरामीटर को समायोजित करती है, जिससे स्टोचैस्टिक नीतियों का सीखना संभव होता है बिना वातावरण के मॉडल की आवश्यकता के।

📖

शब्द

रीइन्फोर्स एल्गोरिथम

पॉलिसी ग्रेडिएंट का मूल एल्गोरिथम जो ग्रेडिएंट के मोंटे कार्लो अनुमान का उपयोग करके पूर्ण रूप से देखे गए एपिसोड के अनुसार नीति के पैरामीटर को अपडेट करता है।

📖

शब्द

एक्टर-क्रिटिक विधियां

एक हाइब्रिड दृष्टिकोण जो एक एक्टर जो नीति सीखता है और एक क्रिटिक जो मूल्य फ़ंक्शन का अनुमान लगाता है को जोड़ती है, जिससे पॉलिसी ग्रेडिएंट के अनुमानों का वैरियंस कम हो जाता है।

📖

शब्द

लाभ फ़ंक्शन

किसी दिए गए अवस्था में क्रियाओं के औसत की तुलना में किसी क्रिया की श्रेष्ठता का माप, जिसे Q फ़ंक्शन और V फ़ंक्शन के बीच के अंतर के रूप में ग्रेडिएंट के वैरियंस को कम करने के लिए गणना की जाती है।

📖

शब्द

प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)

एल्गोरिथम जो नीति को अनुकूलित करता है जिसमें अपडेट को पिछली नीति के करीब रहने के लिए बाध्य किया जाता है, जिसमें क्लिप्ड ऑब्जेक्टिव फ़ंक्शन का उपयोग सीखने की स्थिरता सुनिश्चित करने के लिए किया जाता है।

📖

शब्द

ट्रस्ट रीजन पॉलिसी ऑप्टिमाइज़ेशन (TRPO)

एक विधि जो प्रदर्शन में एकतरफा सुधार की गारंटी देती है जिसमें नीति को एक विश्वास क्षेत्र में अनुकूलित किया जाता है जो क्रमिक नीतियों के बीच KL डाइवर्जेंस द्वारा परिभाषित होता है।

📖

शब्द

प्राकृतिक पॉलिसी ग्रेडिएंट

पॉलिसी ग्रेडिएंट का एक वेरिएंट जो पैरामीटराइज़ेशन के प्रति अपरिवर्तनीय अपडेट करने के लिए फिशर मेट्रिक का उपयोग करता है, जो अधिक स्थिर और प्रभावी अभिसरण की गारंटी देता है।

📖

शब्द

पॉलिसी नेटवर्क

एक पैरामीटराइज्ड न्यूरल नेटवर्क जो नीति π(a|s; θ) का प्रतिनिधित्व करता है, जो वर्तमान अवस्था के आधार पर क्रियाओं पर संभाव्यता वितरण उत्पन्न करता है।

📖

शब्द

मोंटे कार्लो पॉलिसी ग्रेडिएंट

ग्रेडिएंट का अनुमान लगाने की तकनीक जो रिटर्न की गणना करने के लिए पूर्ण ट्रैजेक्टरी का उपयोग करती है, जो बिना बायस के अनुमान की अनुमति देती है लेकिन उच्च वेरिएंस के साथ।

📖

शब्द

बेसलाइन फंक्शन

रिटर्न से घटाई गई फंक्शन जो बिना बायस पेश किए ग्रेडिएंट के अनुमान के वेरिएंस को कम करती है, आमतौर पर स्टेट वैल्यू फंक्शन।

📖

शब्द

इम्पोर्टेंस सैंपलिंग

तकनीक जो पुरानी पॉलिसी से एकत्रित डेटा का उपयोग नई पॉलिसी को अपडेट करने के लिए करने की अनुमति देती है, नमूनों को पॉलिसी की संभावना अनुपात के अनुसार वजन देकर।

📖

शब्द

एंट्रॉपी रेग्युलराइजेशन

बहुत निर्धारक पॉलिसी को दंडित करके एक्सप्लोरेशन को प्रोत्साहित करने के लिए ऑब्जेक्टिव फंक्शन में एंट्रॉपी के टर्म को जोड़ना, लर्निंग की मजबूती में सुधार।

📖

शब्द

डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट

कंटीन्यूएस एक्शन स्पेस में पॉलिसी ग्रेडिएंट का विस्तार जहां पॉलिसी निर्धारक है, विशेष रूप से उच्च आयामी वातावरण में प्रभावी।

📖

शब्द

स्टोचस्टिक पॉलिसी

एक्शन पर संभावना वितरण π(a|s) द्वारा दर्शाई गई पॉलिसी, जो इंट्रिन्सिक एक्सप्लोरेशन की अनुमति देती है और पॉलिसी ग्रेडिएंट मेथड के लिए आवश्यक है।

📖

शब्द

केएल डाइवर्जेंस कंस्ट्रेंट

स्थिर अपडेट सुनिश्चित करने और व्यवहार में बहुत बड़े परिवर्तन से बचने के लिए क्रमिक पॉलिसी के बीच कुलबैक-लेबलर डाइवर्जेंस को सीमित करने वाली कंस्ट्रेंट।

📖

शब्द

जनरलाइज्ड एडवांटेज एस्टिमेशन (GAE)

बायस और वेरिएंस को मल्टी-स्टेप एस्टिमेटर के भारित औसत द्वारा जोड़कर एडवांटेज का अनुमान लगाने की विधि, जो लर्निंग के लिए इष्टतम समझौता प्रदान करती है।

📖

शब्द

पॉलिसी ग्रेडिएंट प्रमेय

यह एक मौलिक प्रमेय है जो नीति के पैरामीटर के संबंध में अपेक्षित प्रतिफल के ग्रेडिएंट का एक विश्लेषणात्मक व्यंजन प्रदान करता है, जो विधियों की तात्विक आधार तैयार करता है।

📖

शब्द

रिटर्न-टू-गो

यह एक दिए गए समय चरण से भविष्य के छूट दिए गए इनामों का योग है, जिसका उपयोग पॉलिसी ग्रेडिएंट एल्गोरिदम में ग्रेडिएंट के अनुमानक के रूप में किया जाता है।

एआई शब्दावली

पॉलिसी ग्रेडिएंट

रीइन्फोर्स एल्गोरिथम

एक्टर-क्रिटिक विधियां

लाभ फ़ंक्शन

प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)

ट्रस्ट रीजन पॉलिसी ऑप्टिमाइज़ेशन (TRPO)

प्राकृतिक पॉलिसी ग्रेडिएंट

पॉलिसी नेटवर्क

मोंटे कार्लो पॉलिसी ग्रेडिएंट

बेसलाइन फंक्शन

इम्पोर्टेंस सैंपलिंग

एंट्रॉपी रेग्युलराइजेशन

डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट

स्टोचस्टिक पॉलिसी

केएल डाइवर्जेंस कंस्ट्रेंट

जनरलाइज्ड एडवांटेज एस्टिमेशन (GAE)

पॉलिसी ग्रेडिएंट प्रमेय

रिटर्न-टू-गो

कोई परिणाम नहीं मिला