एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
MARL (Multi-Agent Reinforcement Learning)
एक ऐसा अधिगम पैराडाइम जहां कई एजेंट एक साझा परिवेश में एक साथ बातचीत करते हैं, और व्यक्तिगत या सामूहिक रूप से इष्टतम नीतियां सीखते हैं।
Centralized Training with Decentralized Execution (CTDE)
एक ऐसा दृष्टिकोण जहां एजेंट केंद्रीकृत वैश्विक जानकारी का उपयोग करके प्रशिक्षित होते हैं, लेकिन स्थानीय अवलोकनों के साथ अपनी नीतियों को विकेंद्रीकृत तरीके से निष्पादित करते हैं।
QMIX (Q-value Mixing)
एक Q-मान विघटन एल्गोरिथ्म जो संयुक्त Q-मान को एजेंटों के व्यक्तिगत Q-मानों के एक एकरूप गैर-रेखीय संयोजन के रूप में दर्शाता है।
VDN (Value Decomposition Networks)
एक सहयोगी ढांचे में कुल मान के फैक्टराइजेशन की विधि जो संयुक्त मान को प्रत्येक एजेंट के व्यक्तिगत मानों के योग में विघटित करती है।
MADDPG (Multi-Agent Deep Deterministic Policy Gradient)
मिश्रित परिवेशों के लिए केंद्रीकृत अधिगम और विकेंद्रीकृत निष्पादन का उपयोग करके DDPG का बहु-एजेंट परिवेशों तक विस्तार।
COMA (Counterfactual Multi-Agent Policy Gradients)
एक ऐसा एल्गोरिथ्म जो काउंटरफैक्चुअल आधार का उपयोग करके यह अनुमान लगाता है कि व्यक्तिगत क्रियाएं एक एजेंट की नीति को बदलकर और अन्य को स्थिर रखकर कैसे समग्र पुरस्कार को प्रभावित करती हैं।
Dec-POMDP (Decentralized Partially Observable Markov Decision Process)
आंशिक अवलोकन और विकेंद्रीकृत निर्णय लेने के साथ बहु-एजेंट अनुक्रमिक निर्णय समस्याओं का गणितीय औपचारिकीकरण।
Credit Assignment
सहयोगी बहु-एजेंट परिवेशों में सामूहिक पुरस्कार में प्रत्येक एजेंट के योगदान को निर्धारित करने की मूल समस्या।
संयुक्त कार्य सीखना
वह तकनीक जहाँ एजेंट वातावरण में सभी एजेंटों की समवर्ती क्रियाओं पर विचार करके अपनी क्रियाओं को समन्वयित करना सीखते हैं।
एजेंट मॉडलिंग
वातावरण में अन्य एजेंटों के इरादों, विश्वासों और नीतियों के मानसिक मॉडल बनाने और बनाए रखने की क्षमता।
MARL में मीन फील्ड सिद्धांत
बड़े पैमाने पर बहु-एजेंट इंटरैक्शन को सांख्यिकीय मीन फील्ड द्वारा सामूहिक प्रभाव का अनुमान लगाकर संभालने वाला सैद्धांतिक दृष्टिकोण।
विरोधी मॉडलिंग
प्रतिस्पर्धी खेलों में अपनी नीति को अनुकूलित करने और विरोधी एजेंटों की क्रियाओं की पूर्वानुमान लगाने के लिए उनकी रणनीतियों और व्यवहारों को सीखने की प्रक्रिया।
MARL में संचार प्रोटोकॉल
सहयोगी कार्यों में समन्वय और सामूहिक दक्षता में सुधार के लिए एजेंटों को जानकारी का आदान-प्रदान करने की अनुमति देने वाले तंत्र।
सहयोगी MARL
MARL का वह उप-क्षेत्र जहां एजेंट एक समान लक्ष्य साझा करते हैं और समन्वय और सहयोग के माध्यम से एक सामूहिक इनाम को अधिकतम करते हैं।
प्रतिस्पर्धात्मक MARL
बहु-एजेंट ढांचा जहां व्यक्ति या टीमें अपने व्यक्तिगत इनाम को अधिकतम करने के लिए शून्य-योग या गैर-शून्य योग खेलों में प्रतिस्पर्धा करती हैं।
मिश्र-प्रेरित MARL
बहु-एजेंट वातावरण जो सहयोगी और प्रतिस्पर्धात्मक तत्वों को जोड़ते हैं, जहां एजेंटों को व्यक्तिगत हितों और सामूहिक लक्ष्यों के बीच संतुलन बनाना होता है।
उद्भवी व्यवहार
साझा परिवेश में एजेंट्स के बीच इंटरैक्शन से स्वतः उत्पन्न होने वाले जटिल, गैर-प्रोग्राम किए गए व्यवहार।
MARL में ध्यान तंत्र
बेहतर निर्णय लेने के लिए एजेंट्स को अन्य एजेंट्स या परिवेश के हिस्सों से आने वाली जानकारी को चुनिंदा रूप से वेट करने की अनुमति देने वाली तकनीकें।
MARL में पाठ्यक्रम सीख
बहु-एजेंट परिवेशों में मजबूत नीतियों की सीख को आसान बनाने के लिए सरल कार्यों से जटिल कार्यों तक प्रगति करने वाली प्रशिक्षण रणनीति।
MARL में विस्तारणीयता
एजेंट्स की संख्या के साथ संयुक्त क्रिया स्थान के घातांकीय वृद्धि के सामने सीखने के प्रदर्शन को बनाए रखने की एल्गोरिदमिक चुनौती।