Q-learning - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

টেবিল কিউ

বিভিন্ন অবস্থা-কর্ম জোড়ার জন্য কিউ মান সংরক্ষণকারী দ্বিমাত্রিক ডেটা স্ট্রাকচার, বিচ্ছিন্ন স্থানের জন্য ট্যাবুলার কিউ-লার্নিং সংস্করণে ব্যবহৃত।

📖

শব্দ

বেলম্যান আপডেট

মানের পুনরাবৃত্তির সমীকরণ যা তাৎক্ষণিক পুরস্কার এবং পরবর্তী অবস্থার সর্বোচ্চ কিউ মান ব্যবহার করে কিউ ফাংশন আপডেট করে, ডিসকাউন্ট ফ্যাক্টর দ্বারা ওজনযুক্ত।

📖

শব্দ

শিক্ষার হার আলফা

প্যারামিটার α ∈ [0,1] যা কিউ মান আপডেটে নতুন তথ্যের গুরুত্ব নিয়ন্ত্রণ করে, অ্যালগরিদমের অভিসারী গতি নির্ধারণ করে।

📖

শব্দ

ডিসকাউন্ট ফ্যাক্টর গামা

প্যারামিটার γ ∈ [0,1] যা কিউ মান গণনায় তাৎক্ষণিক পুরস্কারের তুলনায় ভবিষ্যত পুরস্কারের গুরুত্ব ওজন করে।

📖

শব্দ

এপসিলন-গ্রিডি কৌশল

কর্ম নীতি যা 1-ε সম্ভাবনা সহ সর্বোত্তম কর্ম এবং ε সম্ভাবনা সহ একটি এলোমেলো কর্ম নির্বাচন করে, অন্বেষণ এবং ব্যবহারের মধ্যে নিয়ন্ত্রিত সমঝোতা অনুমোদন করে।

📖

শব্দ

কিউ-লার্নিং অভিসৃতি

তাত্ত্বিক বৈশিষ্ট্য যা নিশ্চিত করে যে কিউ মানগুলি সর্বোত্তম কিউ মানের দিকে অভিসৃত হয় কিছু শর্তের অধীনে, বিশেষত হ্রাসমান শিক্ষার হার এবং পর্যাপ্ত অন্বেষণ।

📖

শব্দ

মডেল-মুক্ত শিক্ষা

পদ্ধতি যেখানে এজেন্ট পরিবেশের গতিবিদ্যার একটি স্পষ্ট মডেল তৈরি না করে সরাসরি নীতি বা মান ফাংশন শেখে।

📖

শব্দ

মার্কভ সিদ্ধান্ত প্রক্রিয়া

ক্রমিক সিদ্ধান্ত সমস্যা মডেল করার জন্য গাণিতিক কাঠামো যেখানে ভবিষ্যত অবস্থা শুধুমাত্র বর্তমান অবস্থা এবং কর্মের উপর নির্ভর করে, মার্কভ বৈশিষ্ট্য মেনে চলে।

📖

শব্দ

বিলম্বিত পুরস্কার

এমন ধারণা যেখানে ক্রিয়াগুলি তাৎক্ষণিকভাবে দুর্বল পুরস্কার তৈরি করতে পারে কিন্তু ভবিষ্যতে উচ্চ পুরস্কার দেয়, যা শেখার ক্ষেত্রে দীর্ঘমেয়াদী পরিকল্পনার প্রয়োজন।

📖

শব্দ

টার্মিনাল অবস্থা

একটি শোষণকারী অবস্থা যা শেখার একটি পর্ব শেষ করে, যার পরে আর কোনও অতিরিক্ত ক্রিয়া সম্ভব নয় এবং Q ফাংশন আর আপডেট করা হয় না।

📖

শব্দ

প্রাথমিক Q-মান

শেখার শুরুতে প্রতিটি অবস্থা-ক্রিয়া জুটিতে নির্ধারিত মান, যা অভিসৃতি গতি এবং প্রাথমিক অনুসন্ধান আচরণকে প্রভাবিত করতে পারে।

📖

শব্দ

এপসিলন ক্ষয়

এপসিলন-লোভী নীতিতে ε প্যারামিটার ধীরে ধীরে হ্রাস করার কৌশল, শেখার সময় প্রাথমিক অনুসন্ধান এবং চূড়ান্ত শোষণকে উৎসাহিত করার জন্য।

📖

শব্দ

ম্যাক্স অপারেটর

Q-লার্নিং আপডেটে গাণিতিক অপারেশন যা ভবিষ্যতের পুরস্কার অনুমান করার জন্য পরবর্তী অবস্থার সমস্ত সম্ভাব্য ক্রিয়া থেকে সর্বোচ্চ Q মান নির্বাচন করে।

📖

শব্দ

ডাবল Q-লার্নিং

Q-লার্নিং এর একটি বৈকল্পিক যা ক্রিয়া নির্বাচন এবং এর মূল্যায়ন আলাদা করে অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি Q ফাংশন ব্যবহার করে।

📖

শব্দ

অসীম সময় সীমা

এমন অবস্থা যেখানে পর্বগুলির পূর্বনির্ধারিত শেষ নেই, Q মানের অভিসৃতি নিশ্চিত করতে একটি ডিসকাউন্ট ফ্যাক্টর γ < 1 প্রয়োজন।

📖

শব্দ

আশাবাদী পক্ষপাত

এমন ঘটনা যেখানে Q অনুমানগুলি প্রাথমিকভাবে আশাবাদী হয়, অনুসন্ধানকে উৎসাহিত করে কারণ কম চেষ্টা করা ক্রিয়াগুলি কৃত্রিমভাবে আকর্ষণীয় বলে মনে হয়।

এআই গ্লসারি

টেবিল কিউ

বেলম্যান আপডেট

শিক্ষার হার আলফা

ডিসকাউন্ট ফ্যাক্টর গামা

এপসিলন-গ্রিডি কৌশল

কিউ-লার্নিং অভিসৃতি

মডেল-মুক্ত শিক্ষা

মার্কভ সিদ্ধান্ত প্রক্রিয়া

বিলম্বিত পুরস্কার

টার্মিনাল অবস্থা

প্রাথমিক Q-মান

এপসিলন ক্ষয়

ম্যাক্স অপারেটর

ডাবল Q-লার্নিং

অসীম সময় সীমা

আশাবাদী পক্ষপাত

কোন ফলাফল পাওয়া যায়নি