Deep Reinforcement Learning - कृत्रिम बुद्धिमत्ता शब्दावली

📂

उप-श्रेणियाँ

Deep Q-Networks (DQN)

Algorithme pionnier combinant Q-learning avec des réseaux de neurones profonds pour approximer la fonction de valeur Q dans des espaces d'états complexes.

18 शब्द

📂

उप-श्रेणियाँ

Policy Gradient Methods

Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.

18 शब्द

📂

उप-श्रेणियाँ

एक्टर-क्रिटिक विधियाँ

एक हाइब्रिड आर्किटेक्चर जो एक एक्टर और एक क्रिटिक को जोड़ती है, जहाँ एक्टर पॉलिसी सीखता है और क्रिटिक स्टेट्स या एक्शंस के वैल्यू का मूल्यांकन करता है।

8 शब्द

📂

उप-श्रेणियाँ

गहरा निर्धारक नीति ढाल (DDPG)

ऑफ-पॉलिसी एक्टर-क्रिटिक एल्गोरिथम जो गहरे तंत्रिका नेटवर्क का उपयोग करके निरंतर क्रिया स्थानों वाले वातावरणों के लिए है।

9 शब्द

📂

उप-श्रेणियाँ

प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)

एक नीति अनुकूलन विधि जो सीखने की स्थिरता सुनिश्चित करने के लिए विश्वास क्षेत्र में अपडेट बनाए रखती है।

11 शब्द

📂

उप-श्रेणियाँ

ट्रस्ट रीजन पॉलिसी ऑप्टिमाइजेशन (TRPO)

एक बाध्य अनुकूलन एल्गोरिथ्म जो यह सुनिश्चित करता है कि नई नीतियां पुरानी नीतियों से बहुत दूर नहीं जाती हैं।

8 शब्द

📂

उप-श्रेणियाँ

बहु-एजेंट डीप आरएल

डीप आरएल का विस्तार जहां कई एजेंट एक साझा वातावरण में सहयोग या प्रतिस्पर्धा में एक साथ सीखते हैं।

20 शब्द

📂

उप-श्रेणियाँ

संरचनात्मक सुदृढ़ीकरण सीखना

एक दृष्टिकोण जो संरचनात्मक स्तरों में सीखने की संरचना करता है, जहाँ मेटा-नीतियाँ विशेषज्ञ उप-नीतियों को नियंत्रित करती हैं।

20 शब्द

📂

उप-श्रेणियाँ

मॉडल-आधारित गहन प्रबलित सीख

वह तकनीक जहाँ एजेंट योजना बनाने और अधिक प्रभावी ढंग से निर्णय लेने के लिए पर्यावरण का एक मॉडल सीखता है।

19 शब्द

📂

उप-श्रेणियाँ

वितरणात्मक आरएल

प्रतिक्रियाओं के पूर्ण वितरण को सीखने का प्रतिमान बल्कि केवल उनकी अपेक्षा से बेहतर मजबूती के लिए

18 शब्द

📂

उप-श्रेणियाँ

जिज्ञासा-आधारित प्रबलित शिक्षण

एक ऐसा दृष्टिकोण जहाँ एजेंट को अपनी जिज्ञासा के आधार पर आंतरिक पुरस्कार मिलते हैं ताकि वह पर्यावरण का प्रभावी ढंग से अन्वेषण कर सके।

16 शब्द

📂

उप-श्रेणियाँ

आरएल में मेटा-लर्निंग

एजेंटों को कम अनुभव के साथ नए कार्यों को जल्दी से सीखने में सक्षम बनाने की एक तकनीक।

18 शब्द

एआई शब्दावली

Deep Q-Networks (DQN)

Policy Gradient Methods

एक्टर-क्रिटिक विधियाँ

गहरा निर्धारक नीति ढाल (DDPG)

प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO)

ट्रस्ट रीजन पॉलिसी ऑप्टिमाइजेशन (TRPO)

बहु-एजेंट डीप आरएल

संरचनात्मक सुदृढ़ीकरण सीखना

मॉडल-आधारित गहन प्रबलित सीख

वितरणात्मक आरएल

जिज्ञासा-आधारित प्रबलित शिक्षण

आरएल में मेटा-लर्निंग

कोई परिणाम नहीं मिला