টেম্পোরাল ডিফারেন্স শেখা - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

টেম্পোরাল ডিফারেন্স এরর (TD Error)

টিডি আপডেটের আগে ও পরে অনুমানকৃত মানের পার্থক্য, যা ভবিষ্যত রিটার্নের উন্নত পূর্বাভাসের জন্য মান অনুমানকে সমন্বয় করার শিক্ষার সংকেত হিসেবে কাজ করে।

📖

শব্দ

বুটস্ট্র্যাপিং

একটি কৌশল যেখানে একটি অনুমানকে বর্তমান অন্য একটি অনুমানের উপর ভিত্তি করে আপডেট করা হয়, যা অনলাইন শিক্ষা এবং চূড়ান্ত রিটার্নের জন্য অপেক্ষা করা পদ্ধতির চেয়ে দ্রুত শিক্ষার সুযোগ দেয়।

📖

শব্দ

টিডি-এমসি সংমিশ্রণ

একটি হাইব্রিড কৌশল যা টিডি বুটস্ট্র্যাপিংয়ের কম বায়াস এবং মন্টে কার্লো পদ্ধতির কম ভ্যারিয়েন্সের সুবিধা নেয়, এপিসোডিক কাজগুলিতে আরও স্থিতিশীল ও কার্যকর শিক্ষার জন্য।

📖

শব্দ

টিডি(λ) অ্যালগরিদম

টিডি পদ্ধতির একটি সাধারণীকরণ যা একটি যোগ্যতার ট্রেস ফ্যাক্টর λ ব্যবহার করে ভবিষ্যতের n-স্টেপ রিটার্নগুলিকে ওজন করে, টিডি(০) এবং মন্টে কার্লোর মধ্যে একটি অবিচ্ছিন্ন সমঝোতা প্রদান করে।

📖

শব্দ

যোগ্যতার ট্রেস

একটি মেমরি মেকানিজম যা সম্প্রতি পরিদর্শিত অবস্থা বা ক্রিয়াগুলিকে ট্র্যাক করে, টিডি এররকে সময়ের পিছনে প্রচার করার মাধ্যমে শিক্ষাকে ত্বরান্বিত করে।

📖

শব্দ

বায়াস-ভ্যারিয়েন্স ট্রেড-অফ

একটি মৌলিক দ্বন্দ্ব যেখানে বায়াস কমানো (টিডি বুটস্ট্র্যাপিংয়ের মাধ্যমে) ভ্যারিয়েন্স বাড়ায় এবং এর বিপরীতে (মন্টে কার্লো পদ্ধতির মাধ্যমে), সর্বোত্তম কর্মক্ষমতার জন্য ভারসাম্য প্রয়োজন।

📖

শব্দ

অন-পলিসি আপডেট

শিক্ষার প্রক্রিয়া যেখানে মূল্যায়িত নীতি এবং ডেটা তৈরির জন্য ব্যবহৃত নীতি একই হয়, যেমন SARSA এবং অন-পলিসি টিডি(λ) অ্যালগরিদমে।

📖

শব্দ

অবস্থার মান ফাংশন (V(s))

একটি নির্দিষ্ট নীতি অনুসরণ করে একটি অবস্থা s থেকে প্রত্যাশিত রিটার্নের অনুমান, যা নীতি মূল্যায়নের জন্য টিডি আপডেটের ভিত্তি হিসেবে কাজ করে।

📖

শব্দ

কিউ-লার্নিং অ্যালগরিদম

একটি অফ-পলিসি টেম্পোরাল ডিফারেন্স (টিডি) পদ্ধতি যা পরবর্তী অবস্থায় সম্ভাব্য সেরা কর্ম ব্যবহার করে সরাসরি সর্বোত্তম মান ফাংশন শেখে, অনুসৃত পলিসির উপর নির্ভর না করে।

📖

শব্দ

রিটার্নের মান (Gt)

সময় ধাপ t থেকে প্রাপ্ত ভবিষ্যত পুরস্কারের ছাড়যুক্ত সমষ্টি, যা মন্টে কার্লো এবং টিডি পদ্ধতির জন্য শেখার লক্ষ্য হিসেবে কাজ করে।

📖

শব্দ

টিডি লক্ষ্য

টিডি অ্যালগরিদমে বর্তমান মান আপডেট করার জন্য ব্যবহৃত একটি অনুমান, যা তাৎক্ষণিক পুরস্কার এবং ভবিষ্যত মানের অনুমানকে একত্রিত করে (যেমন: R + γV(s'))।

এআই গ্লসারি

টেম্পোরাল ডিফারেন্স এরর (TD Error)

বুটস্ট্র্যাপিং

টিডি-এমসি সংমিশ্রণ

টিডি(λ) অ্যালগরিদম

যোগ্যতার ট্রেস

বায়াস-ভ্যারিয়েন্স ট্রেড-অফ

অন-পলিসি আপডেট

অবস্থার মান ফাংশন (V(s))

কিউ-লার্নিং অ্যালগরিদম

রিটার্নের মান (Gt)

টিডি লক্ষ্য

কোন ফলাফল পাওয়া যায়নি