🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

টেম্পোরাল ডিফারেন্স লার্নিং

রিইনফোর্সমেন্ট লার্নিং এর একটি পদ্ধতি যা ডাইনামিক প্রোগ্রামিং এবং মন্টে কার্লো পদ্ধতিকে একত্রিত করে প্রতিটি ধাপের পর ভ্যালু এস্টিমেশন আপডেট করতে সাহায্য করে, এপিসোডের শেষ পর্যন্ত অপেক্ষা না করেই।

📖
শব্দ

টিডি এরর

বর্তমান স্টেটের এস্টিমেটেড ভ্যালু এবং আপডেটেড টার্গেট ভ্যালুর মধ্যে পার্থক্য, যেখানে তাত্ক্ষণিক রিওয়ার্ড এবং পরবর্তী স্টেটের ভ্যালু এস্টিমেশন ব্যবহার করে টার্গেট ভ্যালু গণনা করা হয়।

📖
শব্দ

টিডি(λ)

সাধারণীকৃত টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা λ প্যারামিটার ব্যবহার করে এন-স্টেপ রিটার্ন এবং এলিজিবিলিটি ট্রেসগুলোর ওজন নির্ধারণ করে, টিডি(০) এবং মন্টে কার্লোর মধ্যে একটি সমন্বয় সাধন করে।

📖
শব্দ

এলিজিবিলিটি ট্রেস

একটি মেকানিজম যা সাম্প্রতিক সময়ে ভিজিট করা স্টেট বা অ্যাকশনগুলোর স্বল্পমেয়াদী মেমোরি সংরক্ষণ করে, রিইনফোর্সমেন্ট লার্নিংয়ে ক্রেডিট বা ব্লেম আরও কার্যকরভাবে বণ্টন করতে সাহায্য করে।

📖
শব্দ

সারসা

একটি অন-পলিসি টেম্পোরাল ডিফারেন্স লার্নিং অ্যালগরিদম যা (স্টেট, অ্যাকশন, রিওয়ার্ড, নেক্সট স্টেট, নেক্সট অ্যাকশন) এই পাঁচটি উপাদান ব্যবহার করে অ্যাকশন-স্টেট ভ্যালু আপডেট করে।

📖
শব্দ

বুটস্ট্র্যাপিং টিডি

একটি টেকনিক যেখানে বর্তমান ভ্যালু এস্টিমেশন অন্যান্য ভ্যালু এস্টিমেশন ব্যবহার করে আপডেট করা হয়, যা ফাইনাল রেজাল্টের জন্য অপেক্ষা না করে অনলাইন লার্নিং সম্ভব করে তোলে।

📖
শব্দ

টিডি রিটার্ন

একটি প্রদত্ত স্টেট থেকে প্রত্যাশিত রিটার্নের এস্টিমেশন, যা তাত্ক্ষণিক রিওয়ার্ড এবং ভবিষ্যত ভ্যালু এস্টিমেশনকে টেম্পোরাল ডিফারেন্স পদ্ধতি অনুযায়ী সংযুক্ত করে গণনা করা হয়।

📖
শব্দ

টিডি আপডেট

ভ্যালু এস্টিমেশন সমন্বয়ের একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যা টিডি এররকে লার্নিং রেট দিয়ে গুণ করে ব্যবহার করে, যাতে প্রেডিকশন এবং বাস্তবতার মধ্যে ব্যবধান ধীরে ধীরে হ্রাস পায়।

📖
শব্দ

কনভার্জেন্স টিডি

গাণিতিক বৈশিষ্ট্য যা নিশ্চিত করে যে শেখার হার এবং অন্বেষণের উপর নির্দিষ্ট শর্তে, টেম্পোরাল ডিফারেন্স অ্যালগরিদমগুলি সর্বোত্তম মানের দিকে অভিসারী হয়।

📖
শব্দ

বেলম্যান টিডি সমীকরণ

টেম্পোরাল ডিফারেন্স শেখার জন্য অভিযোজিত বেলম্যান সমীকরণের রূপ, যা একটি অবস্থার মানকে তাৎক্ষণিক পুরস্কার এবং ভবিষ্যতের মানের একটি ফাংশন হিসাবে প্রকাশ করে।

📖
শব্দ

টিডি মান ফাংশন

অবস্থা বা ক্রিয়াকলাপের প্রত্যাশিত মানের পুনরাবৃত্তিমূলক অনুমান, যা সর্বোত্তম মান ফাংশনের কাছে পৌঁছানোর জন্য টেম্পোরাল ডিফারেন্স পদ্ধতি দ্বারা ক্রমাগত আপডেট করা হয়।

📖
শব্দ

প্রেডিক্টিভ টিডি

অনুক্রমের পূর্বাভাসের সমস্যায় টেম্পোরাল ডিফারেন্স শেখার প্রয়োগ, যেখানে অ্যালগরিদম অতীতের পর্যবেক্ষণের ভিত্তিতে ভবিষ্যতের মানগুলি পূর্বাভাস করতে শেখে।

📖
শব্দ

কন্ট্রোল টিডি

নিয়ন্ত্রণ সমস্যায় টিডি পদ্ধতির সম্প্রসারণ, যেখানে এজেন্টকে কেবল অবস্থার মূল্যায়নই নয় বরং ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য একটি সর্বোত্তম কর্ম নীতি শেখাও প্রয়োজন।

📖
শব্দ

এন-স্টেপ টিডি

টেম্পোরাল ডিফারেন্স শেখার সাধারণীকরণ যা আপডেট গণনা করতে n সংখ্যক ভবিষ্যত ধাপ ব্যবহার করে, TD(0) এবং সম্পূর্ণ মন্টে কার্লো পদ্ধতির মধ্যে একটি সমঝোতা প্রদান করে।

🔍

কোন ফলাফল পাওয়া যায়নি