Proximal Policy Optimization (PPO)
ক্লিপিং ফাংশন
PPO-এর একটি প্রক্রিয়া যা নতুন ও পুরনো নীতির মধ্যে সম্ভাব্যতা অনুপাতকে ছাঁটাই করে নীতি হালনাগাদের মাত্রা সীমিত করে, যাতে খুব বেশি আমূল পরিবর্তন এড়ানো যায়।
← ফিরে যান