এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
নীতিমালা সিদ্ধান্ত
একটি কৌশল বা ম্যাপিং যা প্রতিটি সম্ভাব্য অবস্থায় নেওয়া পদক্ষেপ সংজ্ঞায়িত করে, যা শক্তিবৃদ্ধি শিক্ষণ প্রক্রিয়ায় এজেন্টের আচরণ উপস্থাপন করে।
মাল্টি-আর্মড ব্যান্ডিট সমস্যা
একটি ক্রমিক অপ্টিমাইজেশন সমস্যা যেখানে একটি এজেন্টকে অজানা পুরস্কার সহ একাধিক বিকল্পের মধ্যে নির্বাচন করতে হয় সময়ের সাথে ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য।
ক্রমবর্ধমান পুরস্কার
ভবিষ্যতের প্রত্যাশিত পুরস্কারের সমষ্টি যা এজেন্ট সর্বাধিক করতে চায়, প্রায়শই দূরবর্তী পুরস্কারগুলিকে কম গুরুত্ব দেওয়ার জন্য একটি ডিসকাউন্ট ফ্যাক্টর দিয়ে গণনা করা হয়।
SARSA অ্যালগরিদম
একটি অন-পলিসি শক্তিবৃদ্ধি শিক্ষণ অ্যালগরিদম যা স্টেট-অ্যাকশন-রিওয়ার্ড-স্টেট-অ্যাকশন ক্রমের উপর ভিত্তি করে Q মান আপডেট করে, Q-লার্নিংয়ের বিপরীতে।
ডিপ কিউ-নেটওয়ার্ক
একটি গভীর নিউরাল নেটওয়ার্ক আর্কিটেকচার যা জটিল স্টেট স্পেসে Q ফাংশন আনুমানিক করতে ব্যবহৃত হয়, গভীর শিক্ষণ এবং Q-লার্নিংকে একত্রিত করে।
গভীর শক্তিবৃদ্ধি শিক্ষণ
একটি পদ্ধতি যা উচ্চ-মাত্রিক স্টেট বা অ্যাকশন স্পেস পরিচালনা করার জন্য শক্তিবৃদ্ধি শিক্ষণে গভীর নিউরাল নেটওয়ার্ককে একীভূত করে।
এপসিলন-গ্রিডি নীতিমালা
অ্যাকশন নির্বাচনের একটি কৌশল যেখানে সম্ভাব্যতা ε সহ এজেন্ট এক্সপ্লোর করে (একটি এলোমেলো অ্যাকশন নির্বাচন করে) এবং সম্ভাব্যতা 1-ε সহ এটি এক্সপ্লয়িট করে (সর্বোত্তম পরিচিত অ্যাকশন নির্বাচন করে)।
নীতিমালা অপ্টিমাইজেশন
শক্তিবৃদ্ধি শিক্ষণে পদ্ধতির একটি শ্রেণী যা সরাসরি নীতিমালা অপ্টিমাইজ করে একটি মান ফাংশনের মাধ্যমে না গিয়ে, প্রায়শই নীতিমালা গ্রেডিয়েন্ট কৌশল ব্যবহার করে।
পলিসি গ্রেডিয়েন্ট অ্যালগরিদম
একটি অপ্টিমাইজেশন পদ্ধতি যা প্রত্যাশিত পুরস্কারের গ্রেডিয়েন্ট অনুসরণ করে সরাসরি পলিসির প্যারামিটারগুলি সামঞ্জস্য করে।
মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং
রিইনফোর্সমেন্ট লার্নিং-এর একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একই পরিবেশে একসাথে শেখে, প্রায়শই প্রতিযোগিতা বা সহযোগিতার মাধ্যমে।
এক্সপেরিয়েন্স রিপ্লে মেমোরি
একটি ডেটা স্ট্রাকচার যা ট্রানজিশন (স্টেট, অ্যাকশন, রিওয়ার্ড, পরবর্তী স্টেট) সংরক্ষণ করে ট্রেনিংয়ের সময় পুনঃনমুনাকরণের জন্য, ডেটা ব্যবহারের দক্ষতা উন্নত করে।
অ্যাক্টর-ক্রিটিক অ্যালগরিদম
একটি আর্কিটেকচার যা একটি অ্যাক্টর (যা পলিসি অনুযায়ী অ্যাকশন নির্বাচন করে) এবং একটি ক্রিটিক (যা এই অ্যাকশনগুলির মূল্যায়ন করে) একত্রিত করে, আরও স্থিতিশীল এবং দক্ষ শেখার সুবিধা দেয়।