Proximal Policy Optimization (PPO)
অভিজ্ঞতা সংগ্রহ
পিপিপিওর পর্যায় যেখানে এজেন্ট বর্তমান নীতি অনুসরণ করে পরিবেশের সাথে ইন্টারঅ্যাক্ট করে অপ্টিমাইজেশনে ব্যবহৃত ট্রানজিশন (অবস্থা, কর্ম, পুরস্কার) সংগ্রহ করে।
← ফিরে যান