এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ডাবল কিউ-লার্নিং
দুটি স্বাধীন কিউ অনুমানকারী ব্যবহার করে ক্লাসিক্যাল কিউ-লার্নিং-এর অন্তর্নিহিত অত্যধিক অনুমানের পক্ষপাত হ্রাস করার জন্য রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম, দুটি টেবিলের মধ্যে আপডেট বিকল্পভাবে করা হয়।
সর্বোচ্চ অত্যধিক অনুমান
কিউ-লার্নিং-এ পদ্ধতিগত পক্ষপাত যেখানে কর্ম নির্বাচন এবং মূল্যায়নের জন্য একই কিউ ফাংশন ব্যবহার করা কর্ম মানগুলির অত্যধিক অনুমানের দিকে নিয়ে যায়, বিশেষ করে স্টোকাস্টিক পরিবেশে সমস্যাযুক্ত।
বিচ্ছিন্ন কিউ অনুমানকারী
ডাবল কিউ-লার্নিং-এ দুটি স্বতন্ত্র মান ফাংশন কিউ১ এবং কিউ২, যেখানে একটি সর্বোত্তম কর্ম নির্বাচনের জন্য এবং অন্যটি তার মান মূল্যায়নের জন্য ব্যবহৃত হয়, নির্বাচন এবং মূল্যায়নের মধ্যে সম্পর্ক ছিন্ন করতে সক্ষম।
বিকল্প আপডেট
ডাবল কিউ-লার্নিং-এ প্রক্রিয়া যেখানে আপডেটগুলি কিউ১ এবং কিউ২-এর মধ্যে এলোমেলোভাবে বিতরণ করা হয়, প্রতিটি অনুমানকারী সর্বোত্তম কর্মের মূল্যায়নের জন্য অন্যটি ব্যবহার করে অভিজ্ঞতা থেকে শেখে।
সর্বোচ্চকরণ পক্ষপাত
ঘটনা যেখানে শব্দযুক্ত অনুমানকৃত মানগুলিতে প্রয়োগ করা সর্বোচ্চ অপারেটর একটি পদ্ধতিগত ইতিবাচক পক্ষপাত প্রবর্তন করে, ক্লাসিক্যাল কিউ-লার্নিং-এ নির্বাচন এবং মূল্যায়নের জন্য একই অনুমানকারী ব্যবহার দ্বারা তীব্রতর হয়।
ত্রুটি বিভাজন
গাণিতিক বিশ্লেষণ যা দেখায় কিভাবে রিইনফোর্সমেন্ট লার্নিং-এ ত্রুটি পক্ষপাত এবং প্রকরণে বিভক্ত হয়, ডাবল কিউ-লার্নিং বিশেষভাবে সর্বোচ্চকরণ পক্ষপাত উপাদান হ্রাস করে।
অফ-পলিসি লার্নিং
প্যারাডাইম যেখানে এজেন্ট সর্বোত্তম নীতি শেখে যখন একটি ভিন্ন আচরণ নীতি অনুসরণ করে, কিউ-লার্নিং এবং এর বৈকল্পিক ডাবল কিউ-লার্নিং-এর মৌলিক বৈশিষ্ট্য।
অনুমানকৃত কর্ম মান
একটি নির্দিষ্ট অবস্থা-কর্ম জোড়ার জন্য প্রত্যাশিত ভবিষ্যত ক্রমিক পুরস্কারের অনুমান, পদ্ধতিগত অত্যধিক অনুমান এড়াতে ডাবল কিউ-লার্নিং-এ ভিন্নভাবে গণনা করা হয়।
অভিসারী স্থিতিশীলতা
ক্লাসিক্যাল কিউ-লার্নিং এর তুলনায় ডাবল কিউ-লার্নিং এ উন্নত বৈশিষ্ট্য, যা শোরগোল এবং স্টোকাস্টিসিটির উপস্থিতিতে সর্বোত্তম নীতির দিকে আরও নির্ভরযোগ্য অভিসরণ নিশ্চিত করে।
ডাবল টিডি ত্রুটি
ডাবল কিউ-লার্নিং এ ব্যবহৃত টেম্পোরাল ডিফারেন্স ত্রুটির একটি প্রকরণ, যা পক্ষপাতহীন শিক্ষার লক্ষ্য গণনা করার জন্য দুটি কিউ ফাংশনের অনুমানকে একত্রিত করে।
ভুয়া আশাবাদ
একটি ঘটনা যেখানে কিউ-লার্নিং অত্যধিক মূল্যায়নের পক্ষপাতের কারণে উপ-সর্বোত্তম ক্রিয়াকলাপে অত্যধিক আত্মবিশ্বাস বিকাশ করে, একটি ঘটনা যা ক্রস-ইভ্যালুয়েশনের মাধ্যমে ডাবল কিউ-লার্নিং দ্বারা প্রশমিত হয়।
সিগন্যাল-টু-নয়েজ অনুপাত
ডাবল কিউ-লার্নিং এ উন্নত মেট্রিক যেখানে সর্বাধিকীকরণ পক্ষপাত হ্রাস করা শেখার প্রকৃত সংকেত এবং অনুমানের স্টোকাস্টিক শোরগোলের মধ্যে আরও ভাল অনুপাতের অনুমতি দেয়।
রিপ্লে অভিজ্ঞতা
ডাবল কিউ-লার্নিং এর সাথে অভিজ্ঞতা বাফারকে একত্রিত করার কৌশল, যেখানে অতীতের ট্রানজিশনগুলি আরও দক্ষ শেখার জন্য দুটি অনুমানকারীর মধ্যে বিকল্প সহ পুনরায় ব্যবহার করা হয়।
বর্ধিত প্রকরণ
ডাবল কিউ-লার্নিং এ ট্রেড-অফ যেখানে পক্ষপাত হ্রাস অনুমানের প্রকরণের সম্ভাব্য বৃদ্ধির সাথে আসে, যা হাইপারপ্যারামিটারগুলির সতর্ক সমন্বয়ের প্রয়োজন।
ক্রস-ইভ্যালুয়েশন
ডাবল কিউ-লার্নিং এর মৌলিক নীতি যেখানে প্রতিটি কিউ অনুমানকারী অন্যটি দ্বারা নির্বাচিত ক্রিয়াকলাপগুলি মূল্যায়ন করে, একটি ক্রস-ভ্যালিডেশন তৈরি করে যা পদ্ধতিগত অত্যধিক মূল্যায়ন প্রতিরোধ করে।
অ্যাকশন স্পেস ফ্যাক্টরাইজেশন
ডাবল কিউ-লার্নিং এর উন্নত প্রয়োগ যেখানে দুটি অনুমানকারী বিভিন্ন অ্যাকশন সাবসেটে বিশেষীকরণ করে, জটিল অ্যাকশন স্পেসে পক্ষপাত হ্রাস অপ্টিমাইজ করে।