এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
পলিসি গ্রেডিয়েন্ট
সরাসরি অপ্টিমাইজেশন পদ্ধতি যা প্রত্যাশিত রিটার্নের গ্রেডিয়েন্ট অনুসরণ করে পলিসির প্যারামিটার সামঞ্জস্য করে, পরিবেশের মডেলের প্রয়োজন ছাড়াই স্টোকাস্টিক পলিসি শেখার অনুমতি দেয়।
রিইনফোর্স অ্যালগরিদম
পলিসি গ্রেডিয়েন্টের মৌলিক অ্যালগরিদম যা সম্পূর্ণরূপে পর্যবেক্ষিত এপিসোড অনুযায়ী পলিসি প্যারামিটার আপডেট করতে গ্রেডিয়েন্টের মন্টে কার্লো অনুমান ব্যবহার করে।
অ্যাক্টর-ক্রিটিক পদ্ধতি
একটি হাইব্রিড পদ্ধতি যা একটি অ্যাক্টর (যে পলিসি শেখে) এবং একটি ক্রিটিক (যে মান ফাংশন অনুমান করে) একত্রিত করে, পলিসি গ্রেডিয়েন্ট অনুমানের ভ্যারিয়েন্স হ্রাস করে।
অ্যাডভান্টেজ ফাংশন
একটি প্রদত্ত অবস্থায় গড় কর্মের তুলনায় একটি কর্মের শ্রেষ্ঠত্বের পরিমাপ, গ্রেডিয়েন্টের ভ্যারিয়েন্স কমানোর জন্য Q ফাংশন এবং V ফাংশনের পার্থক্য হিসাবে গণনা করা হয়।
প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO)
পলিসি অপ্টিমাইজেশন অ্যালগরিদম যা পূর্ববর্তী পলিসির কাছাকাছি থাকার জন্য আপডেট সীমাবদ্ধ করে, শিক্ষার স্থিতিশীলতা নিশ্চিত করতে ক্লিপ করা উদ্দেশ্য ফাংশন ব্যবহার করে।
ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)
ক্রমাগত পলিসির মধ্যে KL ডাইভারজেন্স দ্বারা সংজ্ঞায়িত আস্থার অঞ্চলে পলিসি অপ্টিমাইজ করে কর্মক্ষমতার একঘেয়ে উন্নতি নিশ্চিত করে।
ন্যাচারাল পলিসি গ্রেডিয়েন্ট
পলিসি গ্রেডিয়েন্টের একটি বৈকল্পিক যা প্যারামিটারাইজেশন-অপরিবর্তনীয় আপডেট সম্পাদনের জন্য ফিশার মেট্রিক ব্যবহার করে, আরও স্থিতিশীল এবং দক্ষ অভিসৃতি নিশ্চিত করে।
পলিসি নেটওয়ার্ক
প্যারামিটারাইজড নিউরাল নেটওয়ার্ক যা পলিসি π(a|s; θ) উপস্থাপন করে, বর্তমান অবস্থার উপর শর্তযুক্ত কর্মের সম্ভাব্যতা বন্টন তৈরি করে।
মন্টে কার্লো পলিসি গ্রেডিয়েন্ট
সম্পূর্ণ ট্রাজেক্টরি ব্যবহার করে রিটার্ন গণনা করার জন্য গ্রেডিয়েন্ট অনুমান কৌশল, যা পক্ষপাতহীন কিন্তু উচ্চ ভ্যারিয়েন্স সহ অনুমান সক্ষম করে।
বেসলাইন ফাংশন
গ্রেডিয়েন্ট অনুমানের ভ্যারিয়েন্স কমানোর জন্য রিটার্ন থেকে বিয়োগ করা ফাংশন, যা সাধারণত স্টেট ভ্যালু ফাংশন হয় এবং কোনো পক্ষপাত প্রবর্তন না করে।
ইম্পরট্যান্স স্যাম্পলিং
পুরানো পলিসি দিয়ে সংগ্রহ করা ডেটা ব্যবহার করে নতুন পলিসি আপডেট করার কৌশল, নমুনাগুলিকে পলিসিগুলোর সম্ভাব্যতা অনুপাত অনুযায়ী ওজন দিয়ে।
এনট্রপি রেগুলারাইজেশন
অত্যধিক নির্ধারিত পলিসিগুলোকে শাস্তি দিয়ে এক্সপ্লোরেশন উৎসাহিত করতে অবজেক্টিভ ফাংশনে এনট্রপি টার্ম যোগ করা, যা শেখার রোবাস্টনেস উন্নত করে।
ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট
ক্রমাগত অ্যাকশন স্পেসে পলিসি গ্রেডিয়েন্টের এক্সটেনশন যেখানে পলিসি নির্ধারিত, উচ্চ মাত্রিক পরিবেশে বিশেষভাবে কার্যকর।
স্টোকাস্টিক পলিসি
অ্যাকশনগুলোর উপর সম্ভাব্যতা বন্টন π(a|s) দ্বারা উপস্থাপিত পলিসি, যা অন্তর্নিহিত এক্সপ্লোরেশন সক্ষম করে এবং পলিসি গ্রেডিয়েন্ট পদ্ধতির জন্য অপরিহার্য।
KL ডাইভারজেন্স কনস্ট্রেইন্ট
ক্রমাগত পলিসিগুলোর মধ্যে কুলব্যাক-লেইবলার ডাইভারজেন্স সীমিত করার কনস্ট্রেইন, স্থিতিশীল আপডেট নিশ্চিত করতে এবং খুব মারাত্মক আচরণ পরিবর্তন এড়াতে।
জেনারালাইজড অ্যাডভান্টেজ এস্টিমেশন (GAE)
মাল্টি-স্টেপ এস্টিমেটরের ওয়েটেড গড় দ্বারা পক্ষপাত এবং ভ্যারিয়েন্স সমন্বয় করে অ্যাডভান্টেজ অনুমানের পদ্ধতি, যা শেখার জন্য সর্বোত্তম সমঝোতা প্রদান করে।
পলিসি গ্রেডিয়েন্ট থিওরেম
মৌলিক উপপাদ্য যা নীতির পরামিতিগুলির সাপেক্ষে প্রত্যাশিত রিটার্নের গ্রেডিয়েন্টের একটি বিশ্লেষণাত্মক অভিব্যক্তি প্রদান করে, যা পলিসি গ্রেডিয়েন্ট পদ্ধতিগুলির তাত্ত্বিক ভিত্তি তৈরি করে।
রিটার্ন-টু-গো
একটি নির্দিষ্ট সময় ধাপ থেকে শুরু করে ভবিষ্যতের ছাড়কৃত পুরস্কারের সমষ্টি, যা পলিসি গ্রেডিয়েন্ট অ্যালগরিদমে গ্রেডিয়েন্ট অনুমানক হিসাবে ব্যবহৃত হয়।