Policy Gradient Methods - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

পলিসি গ্রেডিয়েন্ট

সরাসরি অপ্টিমাইজেশন পদ্ধতি যা প্রত্যাশিত রিটার্নের গ্রেডিয়েন্ট অনুসরণ করে পলিসির প্যারামিটার সামঞ্জস্য করে, পরিবেশের মডেলের প্রয়োজন ছাড়াই স্টোকাস্টিক পলিসি শেখার অনুমতি দেয়।

📖

শব্দ

রিইনফোর্স অ্যালগরিদম

পলিসি গ্রেডিয়েন্টের মৌলিক অ্যালগরিদম যা সম্পূর্ণরূপে পর্যবেক্ষিত এপিসোড অনুযায়ী পলিসি প্যারামিটার আপডেট করতে গ্রেডিয়েন্টের মন্টে কার্লো অনুমান ব্যবহার করে।

📖

শব্দ

অ্যাক্টর-ক্রিটিক পদ্ধতি

একটি হাইব্রিড পদ্ধতি যা একটি অ্যাক্টর (যে পলিসি শেখে) এবং একটি ক্রিটিক (যে মান ফাংশন অনুমান করে) একত্রিত করে, পলিসি গ্রেডিয়েন্ট অনুমানের ভ্যারিয়েন্স হ্রাস করে।

📖

শব্দ

অ্যাডভান্টেজ ফাংশন

একটি প্রদত্ত অবস্থায় গড় কর্মের তুলনায় একটি কর্মের শ্রেষ্ঠত্বের পরিমাপ, গ্রেডিয়েন্টের ভ্যারিয়েন্স কমানোর জন্য Q ফাংশন এবং V ফাংশনের পার্থক্য হিসাবে গণনা করা হয়।

📖

শব্দ

প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO)

পলিসি অপ্টিমাইজেশন অ্যালগরিদম যা পূর্ববর্তী পলিসির কাছাকাছি থাকার জন্য আপডেট সীমাবদ্ধ করে, শিক্ষার স্থিতিশীলতা নিশ্চিত করতে ক্লিপ করা উদ্দেশ্য ফাংশন ব্যবহার করে।

📖

শব্দ

ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)

ক্রমাগত পলিসির মধ্যে KL ডাইভারজেন্স দ্বারা সংজ্ঞায়িত আস্থার অঞ্চলে পলিসি অপ্টিমাইজ করে কর্মক্ষমতার একঘেয়ে উন্নতি নিশ্চিত করে।

📖

শব্দ

ন্যাচারাল পলিসি গ্রেডিয়েন্ট

পলিসি গ্রেডিয়েন্টের একটি বৈকল্পিক যা প্যারামিটারাইজেশন-অপরিবর্তনীয় আপডেট সম্পাদনের জন্য ফিশার মেট্রিক ব্যবহার করে, আরও স্থিতিশীল এবং দক্ষ অভিসৃতি নিশ্চিত করে।

📖

শব্দ

পলিসি নেটওয়ার্ক

প্যারামিটারাইজড নিউরাল নেটওয়ার্ক যা পলিসি π(a|s; θ) উপস্থাপন করে, বর্তমান অবস্থার উপর শর্তযুক্ত কর্মের সম্ভাব্যতা বন্টন তৈরি করে।

📖

শব্দ

মন্টে কার্লো পলিসি গ্রেডিয়েন্ট

সম্পূর্ণ ট্রাজেক্টরি ব্যবহার করে রিটার্ন গণনা করার জন্য গ্রেডিয়েন্ট অনুমান কৌশল, যা পক্ষপাতহীন কিন্তু উচ্চ ভ্যারিয়েন্স সহ অনুমান সক্ষম করে।

📖

শব্দ

বেসলাইন ফাংশন

গ্রেডিয়েন্ট অনুমানের ভ্যারিয়েন্স কমানোর জন্য রিটার্ন থেকে বিয়োগ করা ফাংশন, যা সাধারণত স্টেট ভ্যালু ফাংশন হয় এবং কোনো পক্ষপাত প্রবর্তন না করে।

📖

শব্দ

ইম্পরট্যান্স স্যাম্পলিং

পুরানো পলিসি দিয়ে সংগ্রহ করা ডেটা ব্যবহার করে নতুন পলিসি আপডেট করার কৌশল, নমুনাগুলিকে পলিসিগুলোর সম্ভাব্যতা অনুপাত অনুযায়ী ওজন দিয়ে।

📖

শব্দ

এনট্রপি রেগুলারাইজেশন

অত্যধিক নির্ধারিত পলিসিগুলোকে শাস্তি দিয়ে এক্সপ্লোরেশন উৎসাহিত করতে অবজেক্টিভ ফাংশনে এনট্রপি টার্ম যোগ করা, যা শেখার রোবাস্টনেস উন্নত করে।

📖

শব্দ

ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট

ক্রমাগত অ্যাকশন স্পেসে পলিসি গ্রেডিয়েন্টের এক্সটেনশন যেখানে পলিসি নির্ধারিত, উচ্চ মাত্রিক পরিবেশে বিশেষভাবে কার্যকর।

📖

শব্দ

স্টোকাস্টিক পলিসি

অ্যাকশনগুলোর উপর সম্ভাব্যতা বন্টন π(a|s) দ্বারা উপস্থাপিত পলিসি, যা অন্তর্নিহিত এক্সপ্লোরেশন সক্ষম করে এবং পলিসি গ্রেডিয়েন্ট পদ্ধতির জন্য অপরিহার্য।

📖

শব্দ

KL ডাইভারজেন্স কনস্ট্রেইন্ট

ক্রমাগত পলিসিগুলোর মধ্যে কুলব্যাক-লেইবলার ডাইভারজেন্স সীমিত করার কনস্ট্রেইন, স্থিতিশীল আপডেট নিশ্চিত করতে এবং খুব মারাত্মক আচরণ পরিবর্তন এড়াতে।

📖

শব্দ

জেনারালাইজড অ্যাডভান্টেজ এস্টিমেশন (GAE)

মাল্টি-স্টেপ এস্টিমেটরের ওয়েটেড গড় দ্বারা পক্ষপাত এবং ভ্যারিয়েন্স সমন্বয় করে অ্যাডভান্টেজ অনুমানের পদ্ধতি, যা শেখার জন্য সর্বোত্তম সমঝোতা প্রদান করে।

📖

শব্দ

পলিসি গ্রেডিয়েন্ট থিওরেম

মৌলিক উপপাদ্য যা নীতির পরামিতিগুলির সাপেক্ষে প্রত্যাশিত রিটার্নের গ্রেডিয়েন্টের একটি বিশ্লেষণাত্মক অভিব্যক্তি প্রদান করে, যা পলিসি গ্রেডিয়েন্ট পদ্ধতিগুলির তাত্ত্বিক ভিত্তি তৈরি করে।

📖

শব্দ

রিটার্ন-টু-গো

একটি নির্দিষ্ট সময় ধাপ থেকে শুরু করে ভবিষ্যতের ছাড়কৃত পুরস্কারের সমষ্টি, যা পলিসি গ্রেডিয়েন্ট অ্যালগরিদমে গ্রেডিয়েন্ট অনুমানক হিসাবে ব্যবহৃত হয়।

এআই গ্লসারি

পলিসি গ্রেডিয়েন্ট

রিইনফোর্স অ্যালগরিদম

অ্যাক্টর-ক্রিটিক পদ্ধতি

অ্যাডভান্টেজ ফাংশন

প্রক্সিমাল পলিসি অপ্টিমাইজেশন (PPO)

ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)

ন্যাচারাল পলিসি গ্রেডিয়েন্ট

পলিসি নেটওয়ার্ক

মন্টে কার্লো পলিসি গ্রেডিয়েন্ট

বেসলাইন ফাংশন

ইম্পরট্যান্স স্যাম্পলিং

এনট্রপি রেগুলারাইজেশন

ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট

স্টোকাস্টিক পলিসি

KL ডাইভারজেন্স কনস্ট্রেইন্ট

জেনারালাইজড অ্যাডভান্টেজ এস্টিমেশন (GAE)

পলিসি গ্রেডিয়েন্ট থিওরেম

রিটার্ন-টু-গো

কোন ফলাফল পাওয়া যায়নি