एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
नीति निर्णय
रणनीति या मानचित्रण जो संभावित प्रत्येक स्थिति में किए जाने वाले कार्य को परिभाषित करता है, सुदृढीकरण सीखने की प्रक्रिया में एजेंट के व्यवहार का प्रतिनिधित्व करता है।
बहु-सशस्त्र डाकू समस्या
अनुक्रमिक अनुकूलन समस्या जहां एक एजेंट को समय के साथ संचयी पुरस्कार को अधिकतम करने के लिए अज्ञात पुरस्कारों वाले कई विकल्पों में से चयन करना होता है।
संचयी पुरस्कार
भविष्य के अपेक्षित पुरस्कारों का योग जिसे एजेंट अधिकतम करना चाहता है, अक्सर दूर के पुरस्कारों को कम महत्व देने के लिए छूट कारक के साथ गणना की जाती है।
SARSA एल्गोरिदम
अन-नीति सुदृढीकरण सीखने का एल्गोरिदम जो स्टेट-एक्शन-रिवार्ड-स्टेट-एक्शन अनुक्रम के आधार पर Q मानों को अद्यतन करता है, Q-लर्निंग के विपरीत।
डीप Q-नेटवर्क
गहरे तंत्रिका नेटवर्क आर्किटेक्चर जिसका उपयोग जटिल राज्य स्थानों में Q फ़ंक्शन का अनुमान लगाने के लिए किया जाता है, गहरी सीख और Q-लर्निंग को जोड़ता है।
गहन सुदृढीकरण सीखना
उच्च-आयामी राज्य या क्रिया स्थानों को संभालने के लिए सुदृढीकरण सीखने में गहरे तंत्रिका नेटवर्क को एकीकृत करने वाला दृष्टिकोण।
एप्सिलॉन-लोभी नीति
क्रिया चयन रणनीति जहां संभावना ε के साथ एजेंट अन्वेषण करता है (यादृच्छिक क्रिया चुनता है) और संभावना 1-ε के साथ दोहन करता है (सर्वोत्तम ज्ञात क्रिया चुनता है)।
नीति अनुकूलन
सुदृढीकरण सीखने में विधियों का वर्ग जो मूल्य फ़ंक्शन के बिना सीधे नीति को अनुकूलित करता है, अक्सर नीति ग्रेडिएंट तकनीकों का उपयोग करता है।
पॉलिसी ग्रेडिएंट एल्गोरिदम
एक अनुकूलन विधि जो सीधे पॉलिसी के पैरामीटर्स को उन पैरामीटर्स के संबंध में अपेक्षित पुरस्कार के ग्रेडिएंट का पालन करके समायोजित करती है।
मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग
रीइन्फोर्समेंट लर्निंग का विस्तार जहां कई एजेंट एक साझा वातावरण में एक साथ सीखते हैं, अक्सर प्रतिस्पर्धा या सहयोग में।
अनुभव पुनर्प्राप्ति मेमोरी
डेटा संरचना जो प्रशिक्षण के दौरान पुनः नमूने के लिए संक्रमण (स्थिति, कार्रवाई, पुरस्कार, अगली स्थिति) संग्रहीत करती है, डेटा उपयोग दक्षता में सुधार करती है।
एक्टर-क्रिटिक एल्गोरिदम
एक आर्किटेक्चर जो एक एक्टर जो पॉलिसी के अनुसार कार्रवाइयों का चयन करता है और एक क्रिटिक जो उन कार्रवाइयों का मूल्यांकन करता है, को जोड़ता है, जिससे अधिक स्थिर और कुशल सीखने की अनुमति मिलती है।