एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
ऑफ़लाइन रीइन्फोर्समेंट लर्निंग एल्गोरिदम जो एक्सट्रपोलेशन एरर से बचने के लिए प्रशिक्षण डेटासेट में देखे गए कार्यों के करीब रहने के लिए नीतियों को बाधित करता है। BCQ बैच के समान कार्यों का उत्पादन करने के लिए एक्शन जनरेटर मॉडल का उपयोग करता है, जबकि मामूली विविधताओं का पता लगाता है।
डिस्ट्रीब्यूशन शिफ्ट
ऐसी घटना जहां सीखी गई नीति द्वारा देखे गए स्टेट-एक्शन के वितरण ऑफ़लाइन डेटासेट के वितरण से काफी भिन्न होते हैं। यह बदलाव तैनाती के दौरान पक्षपाती मूल्य अनुमान और खराब प्रदर्शन का कारण बन सकता है।
ऑफ़लाइन रीइन्फोर्समेंट लर्निंग
सीखने का प्रतिमान जहां एजेंट पूर्व-एकत्र किए गए डेटा के एक निश्चित सेट से विशेष रूप से सीखता है, बिना वातावरण के साथ इंटरैक्शन के। यह दृष्टिकोण तब आवश्यक होता है जब रीयल-टाइम एक्सप्लोरेशन महंगा या खतरनाक हो।
बिहेवियर क्लोनिंग
सुपरवाइज्ड लर्निंग तकनीक जो रिवार्ड सिग्नल का उपयोग किए बिना डेमोन्स्ट्रेटिव डेटा से विशेषज्ञ के कार्यों की सीधे नकल करती है। हालांकि सरल, यह दृष्टिकोण तैनाती के दौरान कैस्केडिंग एरर के संचय से पीड़ित हो सकता है।
इम्प्लिसिट क्यू-लर्निंग
वह विधि जो आउट-ऑफ-डिस्ट्रीब्यूशन एक्शन के सीधे मूल्यांकन से बचकर क्यू फ़ंक्शन को अंतर्निहित रूप से सीखती है। IQL ऑफ़लाइन डेटा में अनिश्चितता को बेहतर ढंग से प्रबंधित करने के लिए सीखने को एक एक्सपेक्टाइल लर्निंग समस्या के रूप में तैयार करता है।
आउट-ऑफ-डिस्ट्रीब्यूशन एक्शन
सीखी गई नीति द्वारा उत्पन्न कार्य जो प्रशिक्षण डेटासेट में नहीं देखे गए थे या शायद ही कभी देखे गए थे। ये कार्य ऑफ़लाइन RL में एक प्रमुख जोखिम पैदा करते हैं क्योंकि उनके मूल्यों को विश्वसनीय रूप से अनुमानित नहीं किया जा सकता है।
पॉलिसी कंस्ट्रेंट
वह तंत्र जो सीखी गई नीति को ऑफ़लाइन डेटा बैच में मौजूद कार्यों के समान कार्यों का उत्पादन करने तक सीमित करता है। इस बाध्यता को जुर्माना, डाइवर्जेंस या कंडीशनल जेनरेटिव मॉडल के माध्यम से लागू किया जा सकता है।
पर्टर्बेशन मॉडल
BCQ का घटक जो एक्शन स्पेस का स्थानीय रूप से पता लगाने के लिए व्यवहार के कार्यों के आसपास विविधताएं उत्पन्न करता है। यह मॉडल देखे गए कार्यों में नियंत्रित शोर जोड़ता है, जबकि उनकी व्यवहार्यता सुनिश्चित करता है।
वैल्यू फंक्शन एस्टीमेशन
ऑफ़लाइन डेटा से Q वैल्यू का अनुमान लगाने की प्रक्रिया, जो एक्सप्लोरेशन की अनुपस्थिति के कारण संभावित पूर्वाग्रह को ध्यान में रखती है। आधुनिक तरीके ओवर-ऑप्टिमाइजेशन से बचने के लिए कंजर्वेटिव अंडरएस्टीमेशन तकनीकों का उपयोग करते हैं।
बैच RL
रिइन्फोर्समेंट लर्निंग का ढांचा जहां एजेंट के पास ट्रांजिशन का एक फिक्स्ड बैच होता है और उसे बिना अतिरिक्त इंटरैक्शन के ऑप्टिमल पॉलिसी सीखनी होती है। यह संदर्भ एल्गोरिदम पर डाइवर्जेंस से बचने के लिए विशिष्ट बाधाएं लगाता है।
सुरक्षा बाधा
ऑफ़लाइन पॉलिसी पर लगाई गई प्रतिबंध जो गारंटी देती है कि जनरेट की गई एक्शन स्टेट-एक्शन स्पेस के सुरक्षित क्षेत्रों में रहें। रोबोटिक्स या मेडिसिन जैसे एप्लिकेशन में ये बाधाएं महत्वपूर्ण हैं।
एक्शन रिपीटिशन
ऑफ़लाइन RL में स्थिरता सुधारने के लिए इस्तेमाल की जाने वाली रणनीति, जो डेटा में देखी गई एक्शन के समान एक्शन को दोहराती है। यह तकनीक पूरी तरह से नए और संभावित रूप से खतरनाक एक्शन जनरेट करने के जोखिम को कम करती है।
अनिश्चितता अनुमान
बैच में न देखी गई एक्शन के वैल्यू एस्टीमेशन से जुड़ी अनिश्चितता की मात्रात्मक माप। अनिश्चितता का सटीक अनुमान डिस्ट्रीब्यूशन से बाहर की एक्शन को दंडित करने और रोबस्टनेस सुधारने की अनुमति देता है।
मॉडल-आधारित RL
ऐसा दृष्टिकोण जो सिंथेटिक एक्सपीरियंस जनरेट करने के लिए ऑफ़लाइन डेटा से एनवायरनमेंट डायनामिक्स का मॉडल सीखता है। ऑफ़लाइन संदर्भ में, एरर प्रोपागेशन से बचने के लिए इस मॉडल का सावधानी से उपयोग किया जाना चाहिए।
पॉलिसी मूल्यांकन
एनवायरनमेंट के साथ इंटरैक्शन के बिना केवल ऑफ़लाइन डेटा का उपयोग करके पॉलिसी के परफॉर्मेंस का मूल्यांकन करने का चरण। डिप्लॉयमेंट से पहले लर्निंग को वैलिडेट करने के लिए यह चरण महत्वपूर्ण है।
पॉलिसी सुधार
ऑफ़लाइन डेटा के बैच से गणना की गई वैल्यू एस्टीमेशन का उपयोग करके पॉलिसी के इटरेटिव सुधार की प्रक्रिया। वैलिडिटी बनाए रखने के लिए सुधार को डिस्ट्रीब्यूशन की बाधाओं का पालन करना चाहिए।
बूटस्ट्रैपिंग त्रुटि
डेटा के समर्थन से बाहर विचलन की ओर ले जाने वाली, स्वयं के मूल्य अनुमानों का उपयोग करके नीति में सुधार करते समय संचित त्रुटि। ऑफ़लाइन विधियाँ इस पूर्वाग्रह को नियंत्रित करने के लिए विशिष्ट तकनीकों का उपयोग करती हैं।