केंद्रीकृत-विकेंद्रीकृत MARL - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

केंद्रीकृत प्रशिक्षण के साथ विकेंद्रीकृत निष्पादन (CTDE)

MARL में एक वास्तुशिल्प प्रतिमान जहां एजेंट वैश्विक और साझा जानकारी का उपयोग करके प्रशिक्षण लेते हैं, लेकिन अपनी नीतियों को पूरी तरह से स्वतंत्र और विकेंद्रीकृत तरीके से निष्पादित करते हैं। यह दृष्टिकोण केंद्रीकृत प्रशिक्षण की दक्षता को वितरित निष्पादन की मजबूती के साथ जोड़ता है।

📖

शब्द

वैल्यू डिकम्पोजिशन नेटवर्क्स (VDN)

एक MARL आर्किटेक्चर जो वैश्विक टीम वैल्यू को व्यक्तिगत एजेंटों के मूल्यों के योग में विघटित करता है, जिससे व्यक्तिगत और सामूहिक नीतियों के बीच स्थिरता सुनिश्चित होती है। VDN समन्वित सीखने को सुविधाजनक बनाने के लिए सरल योगात्मकता धारणा बनाए रखता है।

📖

शब्द

क्यू-मिक्स

एक वैल्यू डिकम्पोजिशन एल्गोरिदम जो टीम क्यू-वैल्यू में व्यक्तिगत क्यू-वैल्यू को संयोजित करने के लिए एक गैर-रैखिक और मोनोटोनिक मिश्रण नेटवर्क का उपयोग करता है। क्यू-मिक्स एजेंटों के बीच जटिल इंटरैक्शन की अनुमति देता है जबकि IGM (व्यक्तिगत-वैश्विक-अधिकतम) स्थिरता सुनिश्चित करता है।

📖

शब्द

मल्टी-एजेंट डीप डिटरमिनिस्टिक पॉलिसी ग्रेडिएंट (MADDPG)

केंद्रीकृत आलोचकों और विकेंद्रीकृत अभिनेताओं के साथ केंद्रीकृत-विकेंद्रीकृत सीखने का उपयोग करके बहु-एजेंट वातावरण के लिए DDPG का विस्तार। प्रत्येक एजेंट अन्य एजेंटों की नीतियों को पर्यावरण के हिस्से के रूप में मानते हुए एक नीति सीखता है।

📖

शब्द

काउंटरफैक्चुअल मल्टी-एजेंट पॉलिसी ग्रेडिएंट्स (COMA)

एक बहु-एजेंट पॉलिसी ग्रेडिएंट एल्गोरिदम जो अन्य एजेंटों के कार्यों को फ्रीज करके प्रत्येक व्यक्तिगत कार्य के सीमांत लाभ का अनुमान लगाने के लिए एक काउंटरफैक्चुअल का उपयोग करता है। COMA सहकारी वातावरण में क्रेडिट असाइनमेंट की समस्या को हल करता है।

📖

शब्द

विकेंद्रीकृत आंशिक रूप से अवलोकनीय MDP (Dec-POMDP)

आंशिक अवलोकनीयता वाले बहु-एजेंट निर्णय समस्याओं का गणितीय औपचारिकीकरण जहां प्रत्येक एजेंट अपने स्थानीय अवलोकनों के आधार पर निर्णय लेता है। एजेंटों को साझा वैश्विक पुरस्कार को अधिकतम करने के लिए सहयोग करना होता है।

📖

शब्द

क्रेडिट असाइनमेंट समस्या

MARL में मौलिक चुनौती जिसमें टीम पुरस्कार को प्रत्येक एजेंट के व्यक्तिगत योगदानों को सही ढंग से आवंटित करना शामिल है। समन्वित और इष्टतम नीतियों के सीखने के लिए एक प्रभावी समाधान महत्वपूर्ण है।

📖

शब्द

मल्टी-एजेंट सिस्टम में अटेंशन मैकेनिज्म

एक तकनीक जो एजेंटों को अन्य एजेंटों या पर्यावरण से प्रासंगिक जानकारी को चयनात्मक रूप से वजन देने की अनुमति देती है। अटेंशन सबसे महत्वपूर्ण इंटरैक्शन पर ध्यान केंद्रित करके संचार और समन्वय में सुधार करती है।

📖

शब्द

Communication Protocols

Mécanismes structurant l'échange d'informations entre agents, pouvant être appris ou prédéfinis pour optimiser la coordination. Les protocoles efficaces réduisent la surcharge de communication tout en maintenant les informations critiques pour la tâche.

📖

शब्द

Coordination Graphs

Représentation graphique des dépendances entre agents où les nœuds représentent les agents et les arêtes les interactions nécessaires. Cette structure permet une décomposition efficace des problèmes de décision multi-agents.

📖

शब्द

Team Q-learning

Variante de Q-learning où les agents partagent une fonction de valeur commune et maximisent la récompense d'équipe collective. Les agents utilisent des observations locales mais optimisent un objectif global partagé.

📖

शब्द

Multi-Agent Proximal Policy Optimization (MAPPO)

Extension de PPO aux environnements multi-agents utilisant des critiques centralisées pour évaluer les politiques décentralisées individuelles. MAPPO maintient la stabilité d'entraînement de PPO tout en gérant la non-stationnarité multi-agents.

📖

शब्द

Individual-Global-Max (IGM) Principle

Principe théorique garantissant que l'action jointe optimale pour l'équipe consiste en l'ensemble des actions individuelles optimales selon les valeurs décomposées. L'IGM est essentiel pour la cohérence entre apprentissage individuel et collectif.

📖

शब्द

Parameter Sharing

Technique où les agents partagent les mêmes paramètres de réseau neuronal pour exploiter les similitudes dans les tâches et réduire la complexité. Le partage de paramètres facilite l'apprentissage et la généralisation entre agents homogènes.

📖

शब्द

Non-Stationarity Problem

Défi en MARL où l'environnement perçu par chaque agent change constamment car les autres agents adaptent leurs politiques. Ce problème nécessite des algorithmes spécifiques comme CTDE pour maintenir la convergence.

एआई शब्दावली

केंद्रीकृत प्रशिक्षण के साथ विकेंद्रीकृत निष्पादन (CTDE)

वैल्यू डिकम्पोजिशन नेटवर्क्स (VDN)

क्यू-मिक्स

मल्टी-एजेंट डीप डिटरमिनिस्टिक पॉलिसी ग्रेडिएंट (MADDPG)

काउंटरफैक्चुअल मल्टी-एजेंट पॉलिसी ग्रेडिएंट्स (COMA)

विकेंद्रीकृत आंशिक रूप से अवलोकनीय MDP (Dec-POMDP)

क्रेडिट असाइनमेंट समस्या

मल्टी-एजेंट सिस्टम में अटेंशन मैकेनिज्म

Communication Protocols

Coordination Graphs

Team Q-learning

Multi-Agent Proximal Policy Optimization (MAPPO)

Individual-Global-Max (IGM) Principle

Parameter Sharing

Non-Stationarity Problem

कोई परिणाम नहीं मिला