এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং
একটি শেখার প্যারাডাইম যেখানে একাধিক এজেন্ট একটি শেয়ার্ড পরিবেশে একইসাথে সিদ্ধান্ত নিতে শেখে, যেখানে তারা সমষ্টিগত বা ব্যক্তিগত লক্ষ্য অপ্টিমাইজ করার জন্য একে অপরের সাথে ইন্টারঅ্যাক্ট করে।
মাল্টি-এজেন্ট ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট (MADDPG)
একটি CTDE অ্যালগরিদম যা DDPG-কে মাল্টি-এজেন্ট পরিবেশে প্রসারিত করে, যেখানে কেন্দ্রীয় সমালোচক এবং বিকেন্দ্রীভূত অভিনেতা ব্যবহার করে ক্রমাগত অ্যাকশন স্পেসে শেখা হয়।
মাল্টি-এজেন্ট আংশিক পর্যবেক্ষণযোগ্য মার্কভ ডিসিশন প্রসেস (MPOMDP)
MARL পরিবেশের গাণিতিক ফর্মালাইজেশন যেখানে প্রতিটি এজেন্টের আংশিক পর্যবেক্ষণ থাকে এবং সর্বোত্তম সিদ্ধান্ত নেওয়ার জন্য গ্লোবাল স্টেট অনুমান করতে হয়।
মিন ফিল্ড গেমস
একটি তত্ত্ব যা বিপুল সংখ্যক যুক্তিসঙ্গত এজেন্টের ইন্টারঅ্যাকশন অধ্যয়ন করে, যেখানে ভিড়ের প্রভাবকে একটি গড় ক্ষেত্র দ্বারা আনুমানিক করা হয়, যা বৃহৎ-স্কেল মাল্টি-এজেন্ট সিস্টেমে প্রয়োগযোগ্য।
ক্রমাগত নিয়ন্ত্রণ
MARL-এর প্রয়োগের ডোমেইন যেখানে এজেন্টদের অবিচ্ছিন্ন অ্যাকশন সহ ফিজিক্যাল সিস্টেম নিয়ন্ত্রণ করতে হয়, যেমন মোবাইল রোবোটিক্স বা বস্তু ম্যানিপুলেশন।
স্টোকাস্টিক গেমস
MDP-এর মাল্টি-এজেন্ট পরিবেশে এক্সটেনশন যেখানে ট্রানজিশন এবং রিওয়ার্ড সমস্ত এজেন্টের যৌথ অ্যাকশনের উপর নির্ভর করে, যা সহযোগী এবং প্রতিযোগিতামূলক সিনারিও মডেল করে।
MARL-এ ন্যাশ ইকুইলিব্রিয়াম
স্থিতিশীলতার ধারণা যেখানে কোনো এজেন্ট একতরফাভাবে তার কৌশল পরিবর্তন করে তার রিওয়ার্ড উন্নত করতে পারে না, যা প্রতিযোগিতামূলক MARL অ্যালগরিদমে কনভারজেন্স ক্রাইটেরিয়া হিসেবে ব্যবহৃত হয়।
কোঅর্ডিনেশন প্রোটোকল
কমিউনিকেশন বা সিঙ্ক্রোনাইজেশন মেকানিজম যা এজেন্টদেরকে ক্রমাগত MARL পরিবেশে সমষ্টিগত লক্ষ্য অর্জনের জন্য তাদের অ্যাকশনগুলিকে সারিবদ্ধ করতে সক্ষম করে।