এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Deep Q-Networks (DQN)
কিউ-লার্নিং এবং গভীর নিউরাল নেটওয়ার্কের সংমিশ্রণে একটি অগ্রণী অ্যালগরিদম যা জটিল অবস্থার স্থানে কিউ-মান ফাংশন আনুমানিক করতে ব্যবহৃত হয়।
Policy Gradient Methods
Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.
অ্যাক্টর-ক্রিটিক পদ্ধতি
একটি হাইব্রিড আর্কিটেকচর যা একটি অ্যাক্টর নীতি শেখে এবং একটি ক্রিটিক রাজ্য বা কর্মের মূল্য মূল্যায়ন করে।
Deep Deterministic Policy Gradient (DDPG)
অফ-পলিসি অ্যাক্টর-ক্রিটিক অ্যালগরিদম যা গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে ক্রমাগত অ্যাকশন স্পেস সহ পরিবেশের জন্য।
Proximal Policy Optimization (PPO)
নীতির অপ্টিমাইজেশন পদ্ধতি যা শেখার স্থিতিশীলতা নিশ্চিত করতে আপডেটগুলিকে একটি বিশ্বস্ত অঞ্চলে রাখে।
ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)
একটি সীমাবদ্ধ অপ্টিমাইজেশন অ্যালগরিদম যা নিশ্চিত করে যে নতুন নীতিগুলি পুরানো নীতিগুলি থেকে খুব বেশি দূরে সরে যায় না।
মাল্টি-এজেন্ট ডিপ আরএল
ডিপ আরএলের একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একই পরিবেশে সহযোগিতা বা প্রতিযোগিতার মাধ্যমে একসাথে শেখে।
হায়ারার্কিক্যাল রিইনফোর্সমেন্ট লার্নিং
বিশেষায়িত সাব-পলিসিগুলো নিয়ন্ত্রণকারী মেটা-পলিসি সহ স্তরবিন্যাসে শেখার কাঠামোগত পদ্ধতি।
মডেল-ভিত্তিক গভীর RL
একটি কৌশল যেখানে এজেন্ট পরিবেশের একটি মডেল শেখে যাতে আরও দক্ষতার সাথে পরিকল্পনা এবং সিদ্ধান্ত নিতে পারে।
ডিস্ট্রিবিউশনাল আরএল
একটি প্যারাডাইম যা রিটার্নের সম্পূর্ণ বন্টন শেখে, কেবল তাদের প্রত্যাশা নয়, আরও ভালো রোবাস্টনেসের জন্য।
Curiosity-Driven RL
একটি পদ্ধতি যেখানে এজেন্ট তার কৌতূহলের উপর ভিত্তি করে অভ্যন্তরীণ পুরস্কার পায়, পরিবেশকে কার্যকরভাবে অন্বেষণ করার জন্য।
RL-এ মেটা-লার্নিং
একটি কৌশল যা এজেন্টদের অল্প অভিজ্ঞতার মাধ্যমে নতুন কাজ দ্রুত শিখতে শেখায়।