ডাবল কিউ-লার্নিং

📖

শব্দ

দুটি স্বাধীন কিউ অনুমানকারী ব্যবহার করে ক্লাসিক্যাল কিউ-লার্নিং-এর অন্তর্নিহিত অত্যধিক অনুমানের পক্ষপাত হ্রাস করার জন্য রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, দুটি টেবিলের মধ্যে আপডেট বিকল্পভাবে করা হয়।

📖

শব্দ

সর্বোচ্চ অত্যধিক অনুমান

কিউ-লার্নিং-এ পদ্ধতিগত পক্ষপাত যেখানে কর্ম নির্বাচন এবং মূল্যায়নের জন্য একই কিউ ফাংশন ব্যবহার করা কর্ম মানগুলির অত্যধিক অনুমানের দিকে নিয়ে যায়, বিশেষ করে স্টোকাস্টিক পরিবেশে সমস্যাযুক্ত।

📖

শব্দ

ডাবল কিউ-লার্নিং-এ দুটি স্বতন্ত্র মান ফাংশন কিউ১ এবং কিউ২, যেখানে একটি সর্বোত্তম কর্ম নির্বাচনের জন্য এবং অন্যটি তার মান মূল্যায়নের জন্য ব্যবহৃত হয়, নির্বাচন এবং মূল্যায়নের মধ্যে সম্পর্ক ছিন্ন করতে সক্ষম।

📖

শব্দ

বিকল্প আপডেট

ডাবল কিউ-লার্নিং-এ প্রক্রিয়া যেখানে আপডেটগুলি কিউ১ এবং কিউ২-এর মধ্যে এলোমেলোভাবে বিতরণ করা হয়, প্রতিটি অনুমানকারী সর্বোত্তম কর্মের মূল্যায়নের জন্য অন্যটি ব্যবহার করে অভিজ্ঞতা থেকে শেখে।

📖

শব্দ

সর্বোচ্চকরণ পক্ষপাত

ঘটনা যেখানে শব্দযুক্ত অনুমানকৃত মানগুলিতে প্রয়োগ করা সর্বোচ্চ অপারেটর একটি পদ্ধতিগত ইতিবাচক পক্ষপাত প্রবর্তন করে, ক্লাসিক্যাল কিউ-লার্নিং-এ নির্বাচন এবং মূল্যায়নের জন্য একই অনুমানকারী ব্যবহার দ্বারা তীব্রতর হয়।

📖

শব্দ

ত্রুটি বিভাজন

গাণিতিক বিশ্লেষণ যা দেখায় কিভাবে রিইনফোর্সমেন্ট লার্নিং-এ ত্রুটি পক্ষপাত এবং প্রকরণে বিভক্ত হয়, ডাবল কিউ-লার্নিং বিশেষভাবে সর্বোচ্চকরণ পক্ষপাত উপাদান হ্রাস করে।

📖

শব্দ

অফ-পলিসি লার্নিং

প্যারাডাইম যেখানে এজেন্ট সর্বোত্তম নীতি শেখে যখন একটি ভিন্ন আচরণ নীতি অনুসরণ করে, কিউ-লার্নিং এবং এর বৈকল্পিক ডাবল কিউ-লার্নিং-এর মৌলিক বৈশিষ্ট্য।

📖

শব্দ

অনুমানকৃত কর্ম মান

একটি নির্দিষ্ট অবস্থা-কর্ম জোড়ার জন্য প্রত্যাশিত ভবিষ্যত ক্রমিক পুরস্কারের অনুমান, পদ্ধতিগত অত্যধিক অনুমান এড়াতে ডাবল কিউ-লার্নিং-এ ভিন্নভাবে গণনা করা হয়।

📖

শব্দ

অভিসারী স্থিতিশীলতা

ক্লাসিক্যাল কিউ-লার্নিং এর তুলনায় ডাবল কিউ-লার্নিং এ উন্নত বৈশিষ্ট্য, যা শোরগোল এবং স্টোকাস্টিসিটির উপস্থিতিতে সর্বোত্তম নীতির দিকে আরও নির্ভরযোগ্য অভিসরণ নিশ্চিত করে।

📖

শব্দ

ডাবল টিডি ত্রুটি

ডাবল কিউ-লার্নিং এ ব্যবহৃত টেম্পোরাল ডিফারেন্স ত্রুটির একটি প্রকরণ, যা পক্ষপাতহীন শিক্ষার লক্ষ্য গণনা করার জন্য দুটি কিউ ফাংশনের অনুমানকে একত্রিত করে।

📖

শব্দ

ভুয়া আশাবাদ

একটি ঘটনা যেখানে কিউ-লার্নিং অত্যধিক মূল্যায়নের পক্ষপাতের কারণে উপ-সর্বোত্তম ক্রিয়াকলাপে অত্যধিক আত্মবিশ্বাস বিকাশ করে, একটি ঘটনা যা ক্রস-ইভ্যালুয়েশনের মাধ্যমে ডাবল কিউ-লার্নিং দ্বারা প্রশমিত হয়।

📖

শব্দ

সিগন্যাল-টু-নয়েজ অনুপাত

ডাবল কিউ-লার্নিং এ উন্নত মেট্রিক যেখানে সর্বাধিকীকরণ পক্ষপাত হ্রাস করা শেখার প্রকৃত সংকেত এবং অনুমানের স্টোকাস্টিক শোরগোলের মধ্যে আরও ভাল অনুপাতের অনুমতি দেয়।

📖

শব্দ

রিপ্লে অভিজ্ঞতা

ডাবল কিউ-লার্নিং এর সাথে অভিজ্ঞতা বাফারকে একত্রিত করার কৌশল, যেখানে অতীতের ট্রানজিশনগুলি আরও দক্ষ শেখার জন্য দুটি অনুমানকারীর মধ্যে বিকল্প সহ পুনরায় ব্যবহার করা হয়।

📖

শব্দ

বর্ধিত প্রকরণ

ডাবল কিউ-লার্নিং এ ট্রেড-অফ যেখানে পক্ষপাত হ্রাস অনুমানের প্রকরণের সম্ভাব্য বৃদ্ধির সাথে আসে, যা হাইপারপ্যারামিটারগুলির সতর্ক সমন্বয়ের প্রয়োজন।

📖

শব্দ

ক্রস-ইভ্যালুয়েশন

ডাবল কিউ-লার্নিং এর মৌলিক নীতি যেখানে প্রতিটি কিউ অনুমানকারী অন্যটি দ্বারা নির্বাচিত ক্রিয়াকলাপগুলি মূল্যায়ন করে, একটি ক্রস-ভ্যালিডেশন তৈরি করে যা পদ্ধতিগত অত্যধিক মূল্যায়ন প্রতিরোধ করে।

📖

শব্দ

অ্যাকশন স্পেস ফ্যাক্টরাইজেশন

ডাবল কিউ-লার্নিং এর উন্নত প্রয়োগ যেখানে দুটি অনুমানকারী বিভিন্ন অ্যাকশন সাবসেটে বিশেষীকরণ করে, জটিল অ্যাকশন স্পেসে পক্ষপাত হ্রাস অপ্টিমাইজ করে।

এআই গ্লসারি