एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
विपरीत सुदृढीकरण सीखना
एक सीखने की विधि जहाँ एजेंट स्पष्ट इनाम प्राप्त करने के बजाय विशेषज्ञों के प्रदर्शनों से इनाम फ़ंक्शन का अनुमान लगाता है।
अधिकतम एन्ट्रॉपी विपरीत सुदृढीकरण सीखना
विपरीत सुदृढीकरण सीखने का एक प्रकार जो मानता है कि विशेषज्ञ सभी इष्टतम नीतियों के बीच सबसे अधिक एन्ट्रॉपी वाले संभाव्यता वितरण का पालन करता है।
व्यवहार सीखना
एक पर्यवेक्षित सीखने का दृष्टिकोण जो इनाम फ़ंक्शन का स्पष्ट रूप से अनुमान लगाए बिना सीधे विशेषज्ञ के कार्यों की नकल करना सीखता है।
विशेषज्ञ पथ
एक विशेषज्ञ में देखे गए अवस्थाओं और क्रियाओं का अनुक्रम, समस्या का एक इष्टतम या लगभग इष्टतम समाधान दर्शाता है।
नीति समतुल्यता
एक सिद्धांत जिसके अनुसार कई इनाम फ़ंक्शन समान इष्टतम नीति की ओर ले जा सकते हैं, जो विपरीत सुदृढीकरण सीखने में अस्पष्टता पैदा करता है।
बेयेसियन विपरीत सुदृढीकरण सीखना
विपरीत सुदृढीकरण सीखना दृष्टिकोण जो संभावित इनाम फ़ंक्शनों पर एक वितरण का अनुमान लगाने के लिए बेयेसियन अनुमान का उपयोग करता है।
प्राथमिकता लागत
इनाम फ़ंक्शन को लागत फ़ंक्शन में परिवर्तन, जहाँ एजेंट प्रदर्शनों का पालन करते हुए कुल लागत को कम करना सीखता है।
विरोधात्मक विपरीत सुदृढीकरण सीखना
विपरीत सुदृढीकरण सीखना विधि जो एक विरोधात्मक खेल का उपयोग करती है जहाँ एक जनरेटर नीति सीखता है और एक भेदक विशेषज्ञ पथों को अलग करता है।
सक्रिय विपरीत सुदृढीकरण सीखना
IRL का एक प्रकार जहां एजेंट अतिरिक्त प्रदर्शन प्राप्त करने और अनिश्चितता को कम करने के लिए विशेषज्ञ से पूछताछ कर सकता है।
उद्देश्य फलन अनुमान
विशेषज्ञ के व्यवहार के अवलोकन से अंतर्निहित उद्देश्य फलन को निकालने की गणितीय प्रक्रिया।
अनुकरण पूर्वाग्रह
एजेंट का बिना अंतर्निहित इरादे को समझे विशेषज्ञ के कार्यों को अधिक अनुकरण करने की प्रवृत्ति, जिससे खराब सामान्यीकरण होता है।
विशेषज्ञ प्रतिक्रिया के साथ सुदृढीकरण सीखना
RL और IRL का संयोजन जहां एक मॉडल पहले विशेषज्ञ डेटा पर प्रशिक्षित होता है, फिर मानव प्रतिक्रिया के साथ इसे परिष्कृत किया जाता है।
विशेषता फलन
फलन जो राज्य-क्रियाओं को एक विशेषता स्थान में मानचित्रित करता है, रिवार्ड फलन को रैखिक रूप से दर्शाने के लिए उपयोग किया जाता है।
बहु-कार्य विपरीत सुदृढीकरण सीखना
IRL का विस्तार जहां कई कार्यों को एक साथ सीखा जाता है, रिवार्ड फलनों के बीच ज्ञान साझा करके।