एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
एक्टर-क्रिटिक
रीइनफोर्समेंट लर्निंग आर्किटेक्चर जो एक स्टोकास्टिक पॉलिसी सीखने वाले एक्टर नेटवर्क और मूल्य फ़ंक्शन का अनुमान लगाने वाले क्रिटिक नेटवर्क को जोड़ती है, जिससे पॉलिसी ग्रेडिएंट का वेरिएंस कम होता है।
मूल्य फ़ंक्शन
गणितीय फ़ंक्शन जो किसी स्थिति या स्थिति-क्रिया जोड़ी से अपेक्षित संचयी रिटर्न का अनुमान लगाता है, जो एक्टर-क्रिटिक आर्किटेक्चर में क्रिटिक के लिए सिग्नल प्रदान करता है।
एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक
वितरित आर्किटेक्चर जहां कई एजेंट स्वतंत्र वातावरणों में समानांतर में प्रशिक्षित होते हैं, जो सीखने को तेज़ करने के लिए नियमित रूप से अपने ग्रेडिएंट्स साझा करते हैं।
डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट
निरंतर एक्शन स्पेस के लिए एक्टर-क्रिटिक एल्गोरिदम जो डीप न्यूरल नेटवर्क का उपयोग करता है, जिसमें डिटर्मिनिस्टिक पॉलिसी और स्थिर ऑफ-पॉलिसी सीखने के लिए रिप्ले बफ़र होता है।
ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट
DDPG का सुधार जो मूल्य के अधिक मूल्यांकन को कम करने के लिए दो जुड़वां क्रिटिक का उपयोग करता है और बेहतर स्थिरता के लिए एक्टर और टारगेट के अपडेट में देरी करता है।
सॉफ्ट एक्टर-क्रिटिक
एक्टर-क्रिटिक एल्गोरिदम जो एंट्रॉपी रिवॉर्ड को अधिकतम करता है, जो एक्सप्लोरेशन को प्रोत्साहित करने के लिए रिटर्न और एंट्रॉपी को जोड़ता है, और स्थिर और प्रभावी ऑफ-पॉलिसी अपडेट का उपयोग करता है।
एडवांटेज एक्टर-क्रिटिक
A3C का सिंक्रोनस वेरिएंट जो पॉलिसी ग्रेडिएंट के वेरिएंस को कम करने के लिए एडवांटेज एस्टीमेशन का उपयोग करता है, और GPU पर बेहतर स्थिरता के लिए बैच अपडेट का उपयोग करता है।
क्रिटिक नेटवर्क
न्यूरल नेटवर्क जो V(s) या Q(s,a) वैल्यू फंक्शन का अनुमान लगाता है और एक्टर को TD लर्निंग सिग्नल प्रदान करता है, जो प्रेडिक्शन एरर को ऑप्टिमाइजेशन ग्रेडिएंट के रूप में उपयोग करता है।