एक्टर-क्रिटिक विधियाँ - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

एक्टर-क्रिटिक

रीइनफोर्समेंट लर्निंग आर्किटेक्चर जो एक स्टोकास्टिक पॉलिसी सीखने वाले एक्टर नेटवर्क और मूल्य फ़ंक्शन का अनुमान लगाने वाले क्रिटिक नेटवर्क को जोड़ती है, जिससे पॉलिसी ग्रेडिएंट का वेरिएंस कम होता है।

📖

शब्द

मूल्य फ़ंक्शन

गणितीय फ़ंक्शन जो किसी स्थिति या स्थिति-क्रिया जोड़ी से अपेक्षित संचयी रिटर्न का अनुमान लगाता है, जो एक्टर-क्रिटिक आर्किटेक्चर में क्रिटिक के लिए सिग्नल प्रदान करता है।

📖

शब्द

एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक

वितरित आर्किटेक्चर जहां कई एजेंट स्वतंत्र वातावरणों में समानांतर में प्रशिक्षित होते हैं, जो सीखने को तेज़ करने के लिए नियमित रूप से अपने ग्रेडिएंट्स साझा करते हैं।

📖

शब्द

डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट

निरंतर एक्शन स्पेस के लिए एक्टर-क्रिटिक एल्गोरिदम जो डीप न्यूरल नेटवर्क का उपयोग करता है, जिसमें डिटर्मिनिस्टिक पॉलिसी और स्थिर ऑफ-पॉलिसी सीखने के लिए रिप्ले बफ़र होता है।

📖

शब्द

ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट

DDPG का सुधार जो मूल्य के अधिक मूल्यांकन को कम करने के लिए दो जुड़वां क्रिटिक का उपयोग करता है और बेहतर स्थिरता के लिए एक्टर और टारगेट के अपडेट में देरी करता है।

📖

शब्द

सॉफ्ट एक्टर-क्रिटिक

एक्टर-क्रिटिक एल्गोरिदम जो एंट्रॉपी रिवॉर्ड को अधिकतम करता है, जो एक्सप्लोरेशन को प्रोत्साहित करने के लिए रिटर्न और एंट्रॉपी को जोड़ता है, और स्थिर और प्रभावी ऑफ-पॉलिसी अपडेट का उपयोग करता है।

📖

शब्द

एडवांटेज एक्टर-क्रिटिक

A3C का सिंक्रोनस वेरिएंट जो पॉलिसी ग्रेडिएंट के वेरिएंस को कम करने के लिए एडवांटेज एस्टीमेशन का उपयोग करता है, और GPU पर बेहतर स्थिरता के लिए बैच अपडेट का उपयोग करता है।

📖

शब्द

क्रिटिक नेटवर्क

न्यूरल नेटवर्क जो V(s) या Q(s,a) वैल्यू फंक्शन का अनुमान लगाता है और एक्टर को TD लर्निंग सिग्नल प्रदान करता है, जो प्रेडिक्शन एरर को ऑप्टिमाइजेशन ग्रेडिएंट के रूप में उपयोग करता है।

एआई शब्दावली