এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
টেম্পোরাল ডিফারেন্স লার্নিং
রিইনফোর্সমেন্ট লার্নিং এর একটি পদ্ধতি যা ডাইনামিক প্রোগ্রামিং এবং মন্টে কার্লো পদ্ধতিকে একত্রিত করে প্রতিটি ধাপের পর ভ্যালু এস্টিমেশন আপডেট করতে সাহায্য করে, এপিসোডের শেষ পর্যন্ত অপেক্ষা না করেই।
টিডি এরর
বর্তমান স্টেটের এস্টিমেটেড ভ্যালু এবং আপডেটেড টার্গেট ভ্যালুর মধ্যে পার্থক্য, যেখানে তাত্ক্ষণিক রিওয়ার্ড এবং পরবর্তী স্টেটের ভ্যালু এস্টিমেশন ব্যবহার করে টার্গেট ভ্যালু গণনা করা হয়।
টিডি(λ)
সাধারণীকৃত টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা λ প্যারামিটার ব্যবহার করে এন-স্টেপ রিটার্ন এবং এলিজিবিলিটি ট্রেসগুলোর ওজন নির্ধারণ করে, টিডি(০) এবং মন্টে কার্লোর মধ্যে একটি সমন্বয় সাধন করে।
এলিজিবিলিটি ট্রেস
একটি মেকানিজম যা সাম্প্রতিক সময়ে ভিজিট করা স্টেট বা অ্যাকশনগুলোর স্বল্পমেয়াদী মেমোরি সংরক্ষণ করে, রিইনফোর্সমেন্ট লার্নিংয়ে ক্রেডিট বা ব্লেম আরও কার্যকরভাবে বণ্টন করতে সাহায্য করে।
সারসা
একটি অন-পলিসি টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা (স্টেট, অ্যাকশন, রিওয়ার্ড, নেক্সট স্টেট, নেক্সট অ্যাকশন) এই পাঁচটি উপাদান ব্যবহার করে অ্যাকশন-স্টেট ভ্যালু আপডেট করে।
বুটস্ট্র্যাপিং টিডি
একটি টেকনিক যেখানে বর্তমান ভ্যালু এস্টিমেশন অন্যান্য ভ্যালু এস্টিমেশন ব্যবহার করে আপডেট করা হয়, যা ফাইনাল রেজাল্টের জন্য অপেক্ষা না করে অনলাইন লার্নিং সম্ভব করে তোলে।
টিডি রিটার্ন
একটি প্রদত্ত স্টেট থেকে প্রত্যাশিত রিটার্নের এস্টিমেশন, যা তাত্ক্ষণিক রিওয়ার্ড এবং ভবিষ্যত ভ্যালু এস্টিমেশনকে টেম্পোরাল ডিফারেন্স পদ্ধতি অনুযায়ী সংযুক্ত করে গণনা করা হয়।
টিডি আপডেট
ভ্যালু এস্টিমেশন সমন্বয়ের একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যা টিডি এররকে লার্নিং রেট দিয়ে গুণ করে ব্যবহার করে, যাতে প্রেডিকশন এবং বাস্তবতার মধ্যে ব্যবধান ধীরে ধীরে হ্রাস পায়।
কনভার্জেন্স টিডি
গাণিতিক বৈশিষ্ট্য যা নিশ্চিত করে যে শেখার হার এবং অন্বেষণের উপর নির্দিষ্ট শর্তে, টেম্পোরাল ডিফারেন্স অ্যালগরিদমগুলি সর্বোত্তম মানের দিকে অভিসারী হয়।
বেলম্যান টিডি সমীকরণ
টেম্পোরাল ডিফারেন্স শেখার জন্য অভিযোজিত বেলম্যান সমীকরণের রূপ, যা একটি অবস্থার মানকে তাৎক্ষণিক পুরস্কার এবং ভবিষ্যতের মানের একটি ফাংশন হিসাবে প্রকাশ করে।
টিডি মান ফাংশন
অবস্থা বা ক্রিয়াকলাপের প্রত্যাশিত মানের পুনরাবৃত্তিমূলক অনুমান, যা সর্বোত্তম মান ফাংশনের কাছে পৌঁছানোর জন্য টেম্পোরাল ডিফারেন্স পদ্ধতি দ্বারা ক্রমাগত আপডেট করা হয়।
প্রেডিক্টিভ টিডি
অনুক্রমের পূর্বাভাসের সমস্যায় টেম্পোরাল ডিফারেন্স শেখার প্রয়োগ, যেখানে অ্যালগরিদম অতীতের পর্যবেক্ষণের ভিত্তিতে ভবিষ্যতের মানগুলি পূর্বাভাস করতে শেখে।
কন্ট্রোল টিডি
নিয়ন্ত্রণ সমস্যায় টিডি পদ্ধতির সম্প্রসারণ, যেখানে এজেন্টকে কেবল অবস্থার মূল্যায়নই নয় বরং ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য একটি সর্বোত্তম কর্ম নীতি শেখাও প্রয়োজন।
এন-স্টেপ টিডি
টেম্পোরাল ডিফারেন্স শেখার সাধারণীকরণ যা আপডেট গণনা করতে n সংখ্যক ভবিষ্যত ধাপ ব্যবহার করে, TD(0) এবং সম্পূর্ণ মন্টে কার্লো পদ্ধতির মধ্যে একটি সমঝোতা প্রদান করে।