MARL কেন্দ্রীয়-বিকেন্দ্রীকৃত - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

কেন্দ্রীভূত প্রশিক্ষণ বিকেন্দ্রীভূত কার্যনির্বাহ (CTDE)

MARL-এ স্থাপত্য প্যারাডাইম যেখানে এজেন্টরা গ্লোবাল এবং শেয়ারকৃত তথ্য ব্যবহার করে প্রশিক্ষণ নেয়, কিন্তু তাদের নীতিসমূহ সম্পূর্ণ স্বাধীন এবং বিকেন্দ্রীভূতভাবে কার্যনির্বাহ করে। এই পদ্ধতিটি কেন্দ্রীভূত প্রশিক্ষণের দক্ষতা এবং বিতরণকৃত কার্যনির্বাহের রোবাস্টনেসকে একত্রিত করে।

📖

শব্দ

ভ্যালু ডিকম্পোজিশন নেটওয়ার্কস (VDN)

MARL আর্কিটেকচার যা গ্লোবাল টিম ভ্যালুকে এজেন্টদের স্বতন্ত্র ভ্যালুর যোগফলে বিভক্ত করে, স্বতন্ত্র এবং সমষ্টিগত নীতিসমূহের মধ্যে সামঞ্জস্য নিশ্চিত করে। VDN সমন্বিত শেখার সুবিধার্থে সরল সংযোজন অনুমিতি বজায় রাখে।

📖

শব্দ

Q-MIX

ভ্যালু ডিকম্পোজিশন অ্যালগরিদম যা স্বতন্ত্র Q-ভ্যালুকে টিম Q-ভ্যালুতে একত্রিত করতে একটি নন-লিনিয়ার এবং মনোটোনিক মিক্সিং নেটওয়ার্ক ব্যবহার করে। Q-MIX এজেন্টদের মধ্যে জটিল ইন্টারঅ্যাকশন অনুমোদন করার পাশাপাশি IGM (Individual-Global-Max) সামঞ্জস্য নিশ্চিত করে।

📖

শব্দ

মাল্টি-এজেন্ট ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট (MADDPG)

DDPG-এর মাল্টি-এজেন্ট পরিবেশে সম্প্রসারণ যা কেন্দ্রীভূত সমালোচক এবং বিকেন্দ্রীভূত অভিনেতা ব্যবহার করে কেন্দ্রীভূত-বিকেন্দ্রীভূত শেখার প্রয়োগ করে। প্রতিটি এজেন্ট অন্যান্য এজেন্টদের নীতিসমূহকে পরিবেশের অংশ হিসেবে বিবেচনা করে একটি নীতি শেখে।

📖

শব্দ

কাউন্টারফ্যাকচুয়াল মাল্টি-এজেন্ট পলিসি গ্রেডিয়েন্টস (COMA)

মাল্টি-এজেন্ট পলিসি গ্রেডিয়েন্ট অ্যালগরিদম যা প্রতিটি স্বতন্ত্র কর্মের প্রান্তিক সুবিধা অনুমান করতে অন্যান্য এজেন্টদের কর্ম ফ্রিজ করে একটি কাউন্টারফ্যাক্টর ব্যবহার করে। COMA সহযোগী পরিবেশে ক্রেডিট অ্যাসাইনমেন্ট সমস্যার সমাধান করে।

📖

শব্দ

বিকেন্দ্রীভূত আংশিক পর্যবেক্ষণযোগ্য MDP (Dec-POMDP)

আংশিক পর্যবেক্ষণযোগ্যতা সহ মাল্টি-এজেন্ট সিদ্ধান্ত সমস্যার গাণিতিক ফর্মালাইজেশন যেখানে প্রতিটি এজেন্ট তার স্থানীয় পর্যবেক্ষণের ভিত্তিতে সিদ্ধান্ত নেয়। এজেন্টদের একটি শেয়ারকৃত গ্লোবাল রিওয়ার্ড সর্বাধিক করার জন্য সহযোগিতা করতে হবে।

📖

শব্দ

ক্রেডিট অ্যাসাইনমেন্ট সমস্যা

MARL-এ মৌলিক চ্যালেঞ্জ যা টিম রিওয়ার্ডকে প্রতিটি এজেন্টের স্বতন্ত্র অবদানে সঠিকভাবে বরাদ্দ করতে হয়। একটি কার্যকর সমাধান সমন্বিত এবং সর্বোত্তম নীতিসমূহ শেখার জন্য অত্যন্ত গুরুত্বপূর্ণ।

📖

শব্দ

মাল্টি-এজেন্ট সিস্টেমে অ্যাটেনশন মেকানিজম

একটি কৌশল যা এজেন্টদের অন্যান্য এজেন্ট বা পরিবেশ থেকে প্রাসঙ্গিক তথ্য নির্বাচনীভাবে ওজন করতে দেয়। অ্যাটেনশন সবচেয়ে গুরুত্বপূর্ণ ইন্টারঅ্যাকশনগুলিতে ফোকাস করে যোগাযোগ এবং সমন্বয় উন্নত করে।

📖

শব্দ

Communication Protocols

Mécanismes structurant l'échange d'informations entre agents, pouvant être appris ou prédéfinis pour optimiser la coordination. Les protocoles efficaces réduisent la surcharge de communication tout en maintenant les informations critiques pour la tâche.

📖

শব্দ

Coordination Graphs

Représentation graphique des dépendances entre agents où les nœuds représentent les agents et les arêtes les interactions nécessaires. Cette structure permet une décomposition efficace des problèmes de décision multi-agents.

📖

শব্দ

Team Q-learning

Variante de Q-learning où les agents partagent une fonction de valeur commune et maximisent la récompense d'équipe collective. Les agents utilisent des observations locales mais optimisent un objectif global partagé.

📖

শব্দ

Multi-Agent Proximal Policy Optimization (MAPPO)

Extension de PPO aux environnements multi-agents utilisant des critiques centralisées pour évaluer les politiques décentralisées individuelles. MAPPO maintient la stabilité d'entraînement de PPO tout en gérant la non-stationnarité multi-agents.

📖

শব্দ

Individual-Global-Max (IGM) Principle

Principe théorique garantissant que l'action jointe optimale pour l'équipe consiste en l'ensemble des actions individuelles optimales selon les valeurs décomposées. L'IGM est essentiel pour la cohérence entre apprentissage individuel et collectif.

📖

শব্দ

Parameter Sharing

Technique où les agents partagent les mêmes paramètres de réseau neuronal pour exploiter les similitudes dans les tâches et réduire la complexité. Le partage de paramètres facilite l'apprentissage et la généralisation entre agents homogènes.

📖

শব্দ

Non-Stationarity Problem

Défi en MARL où l'environnement perçu par chaque agent change constamment car les autres agents adaptent leurs politiques. Ce problème nécessite des algorithmes spécifiques comme CTDE pour maintenir la convergence.

এআই গ্লসারি

কেন্দ্রীভূত প্রশিক্ষণ বিকেন্দ্রীভূত কার্যনির্বাহ (CTDE)

ভ্যালু ডিকম্পোজিশন নেটওয়ার্কস (VDN)

Q-MIX

মাল্টি-এজেন্ট ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট (MADDPG)

কাউন্টারফ্যাকচুয়াল মাল্টি-এজেন্ট পলিসি গ্রেডিয়েন্টস (COMA)

বিকেন্দ্রীভূত আংশিক পর্যবেক্ষণযোগ্য MDP (Dec-POMDP)

ক্রেডিট অ্যাসাইনমেন্ট সমস্যা

মাল্টি-এজেন্ট সিস্টেমে অ্যাটেনশন মেকানিজম

Communication Protocols

Coordination Graphs

Team Q-learning

Multi-Agent Proximal Policy Optimization (MAPPO)

Individual-Global-Max (IGM) Principle

Parameter Sharing

Non-Stationarity Problem

কোন ফলাফল পাওয়া যায়নি