🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

পরিকল্পনা নীতি (Planning Policy)

একটি ফাংশন বা কৌশল যা পরিবেশের প্রতিটি অবস্থাকে একটি নির্দিষ্ট ক্রিয়ার সাথে ম্যাপ করে, পরিকল্পনার লক্ষ্য অর্জনের জন্য এজেন্টের আচরণ নির্ধারণ করে।

📖
শব্দ

পুরস্কার গঠন (Reward Shaping)

পুরস্কার ডিজাইনের একটি কৌশল যা এজেন্টকে কাঙ্ক্ষিত পরিকল্পনা আচরণের দিকে আরও কার্যকরভাবে পরিচালিত করার জন্য মূল পুরস্কার ফাংশনকে পরিবর্তন করে।

📖
শব্দ

শ্রেণিবিন্যাসগত আরএল পরিকল্পনা (Hierarchical RL Planning)

একটি পদ্ধতি যেখানে পরিকল্পনা নীতিকে উপ-কাজ বা উপ-নীতির একটি শ্রেণিবিন্যাসে বিভক্ত করা হয়, যা জটিল পরিকল্পনা সমস্যাগুলি আরও কার্যকরভাবে সমাধান করতে সাহায্য করে।

📖
শব্দ

পরিকল্পনার জন্য মেটা-লার্নিং (Meta-Learning for Planning)

একটি দৃষ্টান্ত যেখানে এজেন্ট অভিযোজিত পরিকল্পনা নীতি শেখে যা নতুন পরিবেশ বা পরিকল্পনার লক্ষ্যে দ্রুত মানিয়ে নিতে পারে।

📖
শব্দ

বহু-এজেন্ট আরএল পরিকল্পনা (Multi-Agent RL Planning)

আরএল-এর একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একই সময়ে পরিকল্পনা নীতি শেখে, এজেন্টদের মধ্যে মিথস্ক্রিয়া এবং সহযোগিতা/প্রতিযোগিতা বিবেচনা করা প্রয়োজন হয়।

📖
শব্দ

দৃঢ় আরএল পরিকল্পনা (Robust RL Planning)

একটি পদ্ধতি যার লক্ষ্য হল এমন পরিকল্পনা নীতি শেখা যা পরিবেশ বা গতিশীলতার মডেলের অনিশ্চয়তা এবং পরিবর্তনের মুখেও কার্যকারিতা বজায় রাখে।

📖
শব্দ

আরএল পরিকল্পনায় ট্রান্সফার লার্নিং (Transfer Learning in RL Planning)

একটি কৌশল যা একটি পরিকল্পনা প্রসঙ্গে শেখা জ্ঞান বা নীতি পুনরায় ব্যবহার করে নতুন অনুরূপ প্রসঙ্গে শেখার প্রক্রিয়াকে ত্বরান্বিত করে।

📖
শব্দ

সীমাবদ্ধতা সহ আরএল পরিকল্পনা (Constrained RL Planning)

আরএল-এর একটি গঠন যেখানে এজেন্টকে তার পরিকল্পনা নীতি অপ্টিমাইজ করতে হয়, তবে নিরাপত্তা, সম্পদ বা ডোমেন-নির্দিষ্ট অন্যান্য সীমাবদ্ধতা মেনে চলতে হয়।

📖
শব্দ

মডেল-ভিত্তিক শক্তিশালীকরণ শিক্ষা (Model-Based RL)

একটি পদ্ধতি যেখানে এজেন্ট পরিবেশের গতিশীলতার একটি স্পষ্ট মডেল শেখে বা ব্যবহার করে তার পরিকল্পনা এবং সিদ্ধান্ত গ্রহণের উন্নতি সাধন করে, যা মডেল-মুক্ত RL থেকে ভিন্ন।

📖
শব্দ

RL-এর অবিচ্ছিন্ন পরিকল্পনা (Continuous RL Planning)

RL-এর একটি বিশেষীকরণ যা পরিকল্পনার সমস্যাগুলির জন্য যেখানে অবস্থা এবং কর্মের স্থান অবিচ্ছিন্ন হয়, এবং অভিনেতা-সমালোচক (actor-critic) এর মতো নির্দিষ্ট অনুমান কৌশল প্রয়োজন হয়।

📖
শব্দ

পরিকল্পনার পর্ব (Planning Episode)

এজেন্ট এবং পরিবেশের মধ্যে একটি সম্পূর্ণ মিথস্ক্রিয়া ক্রম যা একটি প্রাথমিক অবস্থা থেকে একটি টার্মিনাল অবস্থা পর্যন্ত বিস্তৃত হয়, যা পরিকল্পনা নীতির জন্য একটি শিক্ষার একক গঠন করে।

📖
শব্দ

অনুকরণ শিক্ষার মাধ্যমে RL পরিকল্পনা (Imitation Learning for RL Planning)

একটি পদ্ধতি যেখানে এজেন্ট বিশেষজ্ঞের প্রদর্শন অনুকরণ করে একটি পরিকল্পনা নীতি শেখে, যা প্রায়শই শক্তিশালীকরণ শিক্ষাকে শুরু বা নির্দেশনা দেওয়ার জন্য ব্যবহৃত হয়।

📖
শব্দ

RL-এর মাধ্যমে নীতি অপ্টিমাইজেশন (Policy Optimization)

RL অ্যালগরিদমের একটি শ্রেণি যা পরিকল্পনা নীতির প্যারামিটারগুলোকে সরাসরি অপ্টিমাইজ করে প্রত্যাশিত পুরস্কার সর্বাধিক করার জন্য, যার মধ্যে REINFORCE বা PPO-এর মতো পদ্ধতি অন্তর্ভুক্ত।

🔍

কোন ফলাফল পাওয়া যায়নি