এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টেবিল কিউ
বিভিন্ন অবস্থা-কর্ম জোড়ার জন্য কিউ মান সংরক্ষণকারী দ্বিমাত্রিক ডেটা স্ট্রাকচার, বিচ্ছিন্ন স্থানের জন্য ট্যাবুলার কিউ-লার্নিং সংস্করণে ব্যবহৃত।
বেলম্যান আপডেট
মানের পুনরাবৃত্তির সমীকরণ যা তাৎক্ষণিক পুরস্কার এবং পরবর্তী অবস্থার সর্বোচ্চ কিউ মান ব্যবহার করে কিউ ফাংশন আপডেট করে, ডিসকাউন্ট ফ্যাক্টর দ্বারা ওজনযুক্ত।
শিক্ষার হার আলফা
প্যারামিটার α ∈ [0,1] যা কিউ মান আপডেটে নতুন তথ্যের গুরুত্ব নিয়ন্ত্রণ করে, অ্যালগরিদমের অভিসারী গতি নির্ধারণ করে।
ডিসকাউন্ট ফ্যাক্টর গামা
প্যারামিটার γ ∈ [0,1] যা কিউ মান গণনায় তাৎক্ষণিক পুরস্কারের তুলনায় ভবিষ্যত পুরস্কারের গুরুত্ব ওজন করে।
এপসিলন-গ্রিডি কৌশল
কর্ম নীতি যা 1-ε সম্ভাবনা সহ সর্বোত্তম কর্ম এবং ε সম্ভাবনা সহ একটি এলোমেলো কর্ম নির্বাচন করে, অন্বেষণ এবং ব্যবহারের মধ্যে নিয়ন্ত্রিত সমঝোতা অনুমোদন করে।
কিউ-লার্নিং অভিসৃতি
তাত্ত্বিক বৈশিষ্ট্য যা নিশ্চিত করে যে কিউ মানগুলি সর্বোত্তম কিউ মানের দিকে অভিসৃত হয় কিছু শর্তের অধীনে, বিশেষত হ্রাসমান শিক্ষার হার এবং পর্যাপ্ত অন্বেষণ।
মডেল-মুক্ত শিক্ষা
পদ্ধতি যেখানে এজেন্ট পরিবেশের গতিবিদ্যার একটি স্পষ্ট মডেল তৈরি না করে সরাসরি নীতি বা মান ফাংশন শেখে।
মার্কভ সিদ্ধান্ত প্রক্রিয়া
ক্রমিক সিদ্ধান্ত সমস্যা মডেল করার জন্য গাণিতিক কাঠামো যেখানে ভবিষ্যত অবস্থা শুধুমাত্র বর্তমান অবস্থা এবং কর্মের উপর নির্ভর করে, মার্কভ বৈশিষ্ট্য মেনে চলে।
বিলম্বিত পুরস্কার
এমন ধারণা যেখানে ক্রিয়াগুলি তাৎক্ষণিকভাবে দুর্বল পুরস্কার তৈরি করতে পারে কিন্তু ভবিষ্যতে উচ্চ পুরস্কার দেয়, যা শেখার ক্ষেত্রে দীর্ঘমেয়াদী পরিকল্পনার প্রয়োজন।
টার্মিনাল অবস্থা
একটি শোষণকারী অবস্থা যা শেখার একটি পর্ব শেষ করে, যার পরে আর কোনও অতিরিক্ত ক্রিয়া সম্ভব নয় এবং Q ফাংশন আর আপডেট করা হয় না।
প্রাথমিক Q-মান
শেখার শুরুতে প্রতিটি অবস্থা-ক্রিয়া জুটিতে নির্ধারিত মান, যা অভিসৃতি গতি এবং প্রাথমিক অনুসন্ধান আচরণকে প্রভাবিত করতে পারে।
এপসিলন ক্ষয়
এপসিলন-লোভী নীতিতে ε প্যারামিটার ধীরে ধীরে হ্রাস করার কৌশল, শেখার সময় প্রাথমিক অনুসন্ধান এবং চূড়ান্ত শোষণকে উৎসাহিত করার জন্য।
ম্যাক্স অপারেটর
Q-লার্নিং আপডেটে গাণিতিক অপারেশন যা ভবিষ্যতের পুরস্কার অনুমান করার জন্য পরবর্তী অবস্থার সমস্ত সম্ভাব্য ক্রিয়া থেকে সর্বোচ্চ Q মান নির্বাচন করে।
ডাবল Q-লার্নিং
Q-লার্নিং এর একটি বৈকল্পিক যা ক্রিয়া নির্বাচন এবং এর মূল্যায়ন আলাদা করে অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি Q ফাংশন ব্যবহার করে।
অসীম সময় সীমা
এমন অবস্থা যেখানে পর্বগুলির পূর্বনির্ধারিত শেষ নেই, Q মানের অভিসৃতি নিশ্চিত করতে একটি ডিসকাউন্ট ফ্যাক্টর γ < 1 প্রয়োজন।
আশাবাদী পক্ষপাত
এমন ঘটনা যেখানে Q অনুমানগুলি প্রাথমিকভাবে আশাবাদী হয়, অনুসন্ধানকে উৎসাহিত করে কারণ কম চেষ্টা করা ক্রিয়াগুলি কৃত্রিমভাবে আকর্ষণীয় বলে মনে হয়।