रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

नीति निर्णय

रणनीति या मानचित्रण जो संभावित प्रत्येक स्थिति में किए जाने वाले कार्य को परिभाषित करता है, सुदृढीकरण सीखने की प्रक्रिया में एजेंट के व्यवहार का प्रतिनिधित्व करता है।

📖

शब्द

बहु-सशस्त्र डाकू समस्या

अनुक्रमिक अनुकूलन समस्या जहां एक एजेंट को समय के साथ संचयी पुरस्कार को अधिकतम करने के लिए अज्ञात पुरस्कारों वाले कई विकल्पों में से चयन करना होता है।

📖

शब्द

संचयी पुरस्कार

भविष्य के अपेक्षित पुरस्कारों का योग जिसे एजेंट अधिकतम करना चाहता है, अक्सर दूर के पुरस्कारों को कम महत्व देने के लिए छूट कारक के साथ गणना की जाती है।

📖

शब्द

SARSA एल्गोरिदम

अन-नीति सुदृढीकरण सीखने का एल्गोरिदम जो स्टेट-एक्शन-रिवार्ड-स्टेट-एक्शन अनुक्रम के आधार पर Q मानों को अद्यतन करता है, Q-लर्निंग के विपरीत।

📖

शब्द

डीप Q-नेटवर्क

गहरे तंत्रिका नेटवर्क आर्किटेक्चर जिसका उपयोग जटिल राज्य स्थानों में Q फ़ंक्शन का अनुमान लगाने के लिए किया जाता है, गहरी सीख और Q-लर्निंग को जोड़ता है।

📖

शब्द

गहन सुदृढीकरण सीखना

उच्च-आयामी राज्य या क्रिया स्थानों को संभालने के लिए सुदृढीकरण सीखने में गहरे तंत्रिका नेटवर्क को एकीकृत करने वाला दृष्टिकोण।

📖

शब्द

एप्सिलॉन-लोभी नीति

क्रिया चयन रणनीति जहां संभावना ε के साथ एजेंट अन्वेषण करता है (यादृच्छिक क्रिया चुनता है) और संभावना 1-ε के साथ दोहन करता है (सर्वोत्तम ज्ञात क्रिया चुनता है)।

📖

शब्द

नीति अनुकूलन

सुदृढीकरण सीखने में विधियों का वर्ग जो मूल्य फ़ंक्शन के बिना सीधे नीति को अनुकूलित करता है, अक्सर नीति ग्रेडिएंट तकनीकों का उपयोग करता है।

📖

शब्द

पॉलिसी ग्रेडिएंट एल्गोरिदम

एक अनुकूलन विधि जो सीधे पॉलिसी के पैरामीटर्स को उन पैरामीटर्स के संबंध में अपेक्षित पुरस्कार के ग्रेडिएंट का पालन करके समायोजित करती है।

📖

शब्द

मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग

रीइन्फोर्समेंट लर्निंग का विस्तार जहां कई एजेंट एक साझा वातावरण में एक साथ सीखते हैं, अक्सर प्रतिस्पर्धा या सहयोग में।

📖

शब्द

अनुभव पुनर्प्राप्ति मेमोरी

डेटा संरचना जो प्रशिक्षण के दौरान पुनः नमूने के लिए संक्रमण (स्थिति, कार्रवाई, पुरस्कार, अगली स्थिति) संग्रहीत करती है, डेटा उपयोग दक्षता में सुधार करती है।

📖

शब्द

एक्टर-क्रिटिक एल्गोरिदम

एक आर्किटेक्चर जो एक एक्टर जो पॉलिसी के अनुसार कार्रवाइयों का चयन करता है और एक क्रिटिक जो उन कार्रवाइयों का मूल्यांकन करता है, को जोड़ता है, जिससे अधिक स्थिर और कुशल सीखने की अनुमति मिलती है।

एआई शब्दावली

नीति निर्णय

बहु-सशस्त्र डाकू समस्या

संचयी पुरस्कार

SARSA एल्गोरिदम

डीप Q-नेटवर्क

गहन सुदृढीकरण सीखना

एप्सिलॉन-लोभी नीति

नीति अनुकूलन

पॉलिसी ग्रेडिएंट एल्गोरिदम

मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग

अनुभव पुनर्प्राप्ति मेमोरी

एक्टर-क्रिटिक एल्गोरिदम

कोई परिणाम नहीं मिला