एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
क्यू-लर्निंग
एक मॉडल-मुक्त सुदृढीकरण अधिगम एल्गोरिथ्म जो कि इष्टतम नीति खोजने के लिए एक्शन-स्टेट मान फ़ंक्शन को सीखता है।
SARSA
ऑन-पॉलिसी पुनर्बलन सीखने का एक एल्गोरिदम जो वास्तव में ली गई क्रिया का उपयोग करके क्यू मानों को अद्यतन करता है।
गतिशील प्रोग्रामिंग
MDP को हल करने के लिए मूल्य पुनरावृत्ति और नीति पुनरावृत्ति सहित गणितीय विधियाँ।
मॉन्टे कार्लो विधि
मूल्यों का अनुमान लगाने के लिए पूर्ण एपिसोड के नमूनाकरण पर आधारित सीखने की तकनीकें।
अलग-अलग सीखना
प्रत्येक चरण के बाद ऑनलाइन अद्यतन की अनुमति देने के लिए गतिशील प्रोग्रामिंग और मॉन्टे कार्लो का संयोजन।
डबल क्यू-लर्निंग
कार्यों के मूल्यांकन में अतिमूल्यांकन के झुकाव को कम करने के लिए दो क्यू आकलकों का उपयोग करने वाला क्यू-लर्निंग का एक संस्करण।
फ़ंक्शन सन्निकटन
तालिका विधियों को तंत्रिका नेटवर्क जैसे सन्निकटकों का उपयोग करके सतत राज्य स्थान पर विस्तारित करना।
मॉडल के साथ सीखना
ऐसी दृष्टिकोण जहां पर्यावरण के संक्रमण मॉडल के बारे में ज्ञात होता है या क्रियाओं की योजना बनाने के लिए सीखा जाता है।
अन्वेषण बनाम शोषण
नई क्रियाओं के अन्वेषण और अर्जित ज्ञान के शोषण को संतुलित करने की रणनीति।
मार्कोव निर्णय प्रक्रिया
स्टोकैस्टिक वातावरण में क्रमिक निर्णय समस्याओं को मॉडल करने के लिए औपचारिक गणितीय ढांचा।
मल्टी-एजेंट लर्निंग
कई एजेंटों के साथ इंटरैक्ट करने वाले वातावरण के लिए पुनर्बलन सीखने का विस्तार।
आंशिक रूप से दृश्यमान प्रक्रिया
एमडीपी का सामान्यीकरण जहां स्थिति केवल आंशिक रूप से दृश्यमान है, जिससे स्थिति पर विश्वास की आवश्यकता होती है।
नीति ढाल विधियाँ
अपेक्षित प्रदर्शन के ढाल का पालन करके नीति मापदंडों का सीधा समानुपातन।
पात्रता ट्रेस
सारांश में, टीडी और मॉन्टे कार्लो के लाभों को जोड़ने वाली एक संयुक्त यांत्रिकी जो सामयिक ऋण के माध्यम से सीखने को बढ़ावा देती है।
मूल्य का गुणनखंडन
सीखने की स्थिरता में सुधार के लिए स्टेट मूल्य और एडवांटेज में क्यू फ़ंक्शन का विघटन