Proximal Policy Optimization (PPO)
ট্রাস্ট রিজিয়ন
নীতি স্থানের মধ্যে একটি আস্থার অঞ্চল যেখানে হালনাগাদগুলো নিরাপদ বলে বিবেচিত হয়, যা পরপর নীতিগুলোর মধ্যে KL ডাইভারজেন্সের উপর একটি সীমাবদ্ধতা দ্বারা সংজ্ঞায়িত।
← ফিরে যান