এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টেম্পোরাল ডিফারেন্স এরর (TD Error)
টিডি আপডেটের আগে ও পরে অনুমানকৃত মানের পার্থক্য, যা ভবিষ্যত রিটার্নের উন্নত পূর্বাভাসের জন্য মান অনুমানকে সমন্বয় করার শিক্ষার সংকেত হিসেবে কাজ করে।
বুটস্ট্র্যাপিং
একটি কৌশল যেখানে একটি অনুমানকে বর্তমান অন্য একটি অনুমানের উপর ভিত্তি করে আপডেট করা হয়, যা অনলাইন শিক্ষা এবং চূড়ান্ত রিটার্নের জন্য অপেক্ষা করা পদ্ধতির চেয়ে দ্রুত শিক্ষার সুযোগ দেয়।
টিডি-এমসি সংমিশ্রণ
একটি হাইব্রিড কৌশল যা টিডি বুটস্ট্র্যাপিংয়ের কম বায়াস এবং মন্টে কার্লো পদ্ধতির কম ভ্যারিয়েন্সের সুবিধা নেয়, এপিসোডিক কাজগুলিতে আরও স্থিতিশীল ও কার্যকর শিক্ষার জন্য।
টিডি(λ) অ্যালগরিদম
টিডি পদ্ধতির একটি সাধারণীকরণ যা একটি যোগ্যতার ট্রেস ফ্যাক্টর λ ব্যবহার করে ভবিষ্যতের n-স্টেপ রিটার্নগুলিকে ওজন করে, টিডি(০) এবং মন্টে কার্লোর মধ্যে একটি অবিচ্ছিন্ন সমঝোতা প্রদান করে।
যোগ্যতার ট্রেস
একটি মেমরি মেকানিজম যা সম্প্রতি পরিদর্শিত অবস্থা বা ক্রিয়াগুলিকে ট্র্যাক করে, টিডি এররকে সময়ের পিছনে প্রচার করার মাধ্যমে শিক্ষাকে ত্বরান্বিত করে।
বায়াস-ভ্যারিয়েন্স ট্রেড-অফ
একটি মৌলিক দ্বন্দ্ব যেখানে বায়াস কমানো (টিডি বুটস্ট্র্যাপিংয়ের মাধ্যমে) ভ্যারিয়েন্স বাড়ায় এবং এর বিপরীতে (মন্টে কার্লো পদ্ধতির মাধ্যমে), সর্বোত্তম কর্মক্ষমতার জন্য ভারসাম্য প্রয়োজন।
অন-পলিসি আপডেট
শিক্ষার প্রক্রিয়া যেখানে মূল্যায়িত নীতি এবং ডেটা তৈরির জন্য ব্যবহৃত নীতি একই হয়, যেমন SARSA এবং অন-পলিসি টিডি(λ) অ্যালগরিদমে।
অবস্থার মান ফাংশন (V(s))
একটি নির্দিষ্ট নীতি অনুসরণ করে একটি অবস্থা s থেকে প্রত্যাশিত রিটার্নের অনুমান, যা নীতি মূল্যায়নের জন্য টিডি আপডেটের ভিত্তি হিসেবে কাজ করে।
কিউ-লার্নিং অ্যালগরিদম
একটি অফ-পলিসি টেম্পোরাল ডিফারেন্স (টিডি) পদ্ধতি যা পরবর্তী অবস্থায় সম্ভাব্য সেরা কর্ম ব্যবহার করে সরাসরি সর্বোত্তম মান ফাংশন শেখে, অনুসৃত পলিসির উপর নির্ভর না করে।
রিটার্নের মান (Gt)
সময় ধাপ t থেকে প্রাপ্ত ভবিষ্যত পুরস্কারের ছাড়যুক্ত সমষ্টি, যা মন্টে কার্লো এবং টিডি পদ্ধতির জন্য শেখার লক্ষ্য হিসেবে কাজ করে।
টিডি লক্ষ্য
টিডি অ্যালগরিদমে বর্তমান মান আপডেট করার জন্য ব্যবহৃত একটি অনুমান, যা তাৎক্ষণিক পুরস্কার এবং ভবিষ্যত মানের অনুমানকে একত্রিত করে (যেমন: R + γV(s'))।