एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Deep Q-Networks (DQN)
Algorithme pionnier combinant Q-learning avec des réseaux de neurones profonds pour approximer la fonction de valeur Q dans des espaces d'états complexes.
Policy Gradient Methods
Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.
एक्टर-क्रिटिक विधियाँ
एक हाइब्रिड आर्किटेक्चर जो एक एक्टर और एक क्रिटिक को जोड़ती है, जहाँ एक्टर पॉलिसी सीखता है और क्रिटिक स्टेट्स या एक्शंस के वैल्यू का मूल्यांकन करता है।
गहरा निर्धारक नीति ढाल (DDPG)
ऑफ-पॉलिसी एक्टर-क्रिटिक एल्गोरिथम जो गहरे तंत्रिका नेटवर्क का उपयोग करके निरंतर क्रिया स्थानों वाले वातावरणों के लिए है।
प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)
एक नीति अनुकूलन विधि जो सीखने की स्थिरता सुनिश्चित करने के लिए विश्वास क्षेत्र में अपडेट बनाए रखती है।
ट्रस्ट रीजन पॉलिसी ऑप्टिमाइजेशन (TRPO)
एक बाध्य अनुकूलन एल्गोरिथ्म जो यह सुनिश्चित करता है कि नई नीतियां पुरानी नीतियों से बहुत दूर नहीं जाती हैं।
बहु-एजेंट डीप आरएल
डीप आरएल का विस्तार जहां कई एजेंट एक साझा वातावरण में सहयोग या प्रतिस्पर्धा में एक साथ सीखते हैं।
संरचनात्मक सुदृढ़ीकरण सीखना
एक दृष्टिकोण जो संरचनात्मक स्तरों में सीखने की संरचना करता है, जहाँ मेटा-नीतियाँ विशेषज्ञ उप-नीतियों को नियंत्रित करती हैं।
मॉडल-आधारित गहन प्रबलित सीख
वह तकनीक जहाँ एजेंट योजना बनाने और अधिक प्रभावी ढंग से निर्णय लेने के लिए पर्यावरण का एक मॉडल सीखता है।
वितरणात्मक आरएल
प्रतिक्रियाओं के पूर्ण वितरण को सीखने का प्रतिमान बल्कि केवल उनकी अपेक्षा से बेहतर मजबूती के लिए
जिज्ञासा-आधारित प्रबलित शिक्षण
एक ऐसा दृष्टिकोण जहाँ एजेंट को अपनी जिज्ञासा के आधार पर आंतरिक पुरस्कार मिलते हैं ताकि वह पर्यावरण का प्रभावी ढंग से अन्वेषण कर सके।
आरएल में मेटा-लर्निंग
एजेंटों को कम अनुभव के साथ नए कार्यों को जल्दी से सीखने में सक्षम बनाने की एक तकनीक।