क्लासिकल रीन्फोर्समेंट लर्निंग - कृत्रिम बुद्धिमत्ता शब्दावली

📂

उप-श्रेणियाँ

क्यू-लर्निंग

एक मॉडल-मुक्त सुदृढीकरण अधिगम एल्गोरिथ्म जो कि इष्टतम नीति खोजने के लिए एक्शन-स्टेट मान फ़ंक्शन को सीखता है।

16 शब्द

📂

उप-श्रेणियाँ

SARSA

ऑन-पॉलिसी पुनर्बलन सीखने का एक एल्गोरिदम जो वास्तव में ली गई क्रिया का उपयोग करके क्यू मानों को अद्यतन करता है।

13 शब्द

📂

उप-श्रेणियाँ

गतिशील प्रोग्रामिंग

MDP को हल करने के लिए मूल्य पुनरावृत्ति और नीति पुनरावृत्ति सहित गणितीय विधियाँ।

16 शब्द

📂

उप-श्रेणियाँ

मॉन्टे कार्लो विधि

मूल्यों का अनुमान लगाने के लिए पूर्ण एपिसोड के नमूनाकरण पर आधारित सीखने की तकनीकें।

16 शब्द

📂

उप-श्रेणियाँ

अलग-अलग सीखना

प्रत्येक चरण के बाद ऑनलाइन अद्यतन की अनुमति देने के लिए गतिशील प्रोग्रामिंग और मॉन्टे कार्लो का संयोजन।

14 शब्द

📂

उप-श्रेणियाँ

डबल क्यू-लर्निंग

कार्यों के मूल्यांकन में अतिमूल्यांकन के झुकाव को कम करने के लिए दो क्यू आकलकों का उपयोग करने वाला क्यू-लर्निंग का एक संस्करण।

16 शब्द

📂

उप-श्रेणियाँ

फ़ंक्शन सन्निकटन

तालिका विधियों को तंत्रिका नेटवर्क जैसे सन्निकटकों का उपयोग करके सतत राज्य स्थान पर विस्तारित करना।

12 शब्द

📂

उप-श्रेणियाँ

मॉडल के साथ सीखना

ऐसी दृष्टिकोण जहां पर्यावरण के संक्रमण मॉडल के बारे में ज्ञात होता है या क्रियाओं की योजना बनाने के लिए सीखा जाता है।

14 शब्द

📂

उप-श्रेणियाँ

अन्वेषण बनाम शोषण

नई क्रियाओं के अन्वेषण और अर्जित ज्ञान के शोषण को संतुलित करने की रणनीति।

9 शब्द

📂

उप-श्रेणियाँ

मार्कोव निर्णय प्रक्रिया

स्टोकैस्टिक वातावरण में क्रमिक निर्णय समस्याओं को मॉडल करने के लिए औपचारिक गणितीय ढांचा।

19 शब्द

📂

उप-श्रेणियाँ

मल्टी-एजेंट लर्निंग

कई एजेंटों के साथ इंटरैक्ट करने वाले वातावरण के लिए पुनर्बलन सीखने का विस्तार।

16 शब्द

📂

उप-श्रेणियाँ

आंशिक रूप से दृश्यमान प्रक्रिया

एमडीपी का सामान्यीकरण जहां स्थिति केवल आंशिक रूप से दृश्यमान है, जिससे स्थिति पर विश्वास की आवश्यकता होती है।

14 शब्द

📂

उप-श्रेणियाँ

नीति ढाल विधियाँ

अपेक्षित प्रदर्शन के ढाल का पालन करके नीति मापदंडों का सीधा समानुपातन।

8 शब्द

📂

उप-श्रेणियाँ

पात्रता ट्रेस

सारांश में, टीडी और मॉन्टे कार्लो के लाभों को जोड़ने वाली एक संयुक्त यांत्रिकी जो सामयिक ऋण के माध्यम से सीखने को बढ़ावा देती है।

17 शब्द

📂

उप-श्रेणियाँ

मूल्य का गुणनखंडन

सीखने की स्थिरता में सुधार के लिए स्टेट मूल्य और एडवांटेज में क्यू फ़ंक्शन का विघटन

15 शब्द

एआई शब्दावली

क्यू-लर्निंग

SARSA

गतिशील प्रोग्रामिंग

मॉन्टे कार्लो विधि

अलग-अलग सीखना

डबल क्यू-लर्निंग

फ़ंक्शन सन्निकटन

मॉडल के साथ सीखना

अन्वेषण बनाम शोषण

मार्कोव निर्णय प्रक्रिया

मल्टी-एजेंट लर्निंग

आंशिक रूप से दृश्यमान प्रक्रिया

नीति ढाल विधियाँ

पात्रता ट्रेस

मूल्य का गुणनखंडन

कोई परिणाम नहीं मिला