تحسين السياسة المجاور (PPO)
عقوبة تباعد KL
عقوبة مضافة إلى دالة هدف PPO للتحكم في التباعد بين السياسات المتعاقبة، يتم تعديلها تكيفياً للحفاظ على التحديثات في منطقة مقبولة.
← رجوععقوبة مضافة إلى دالة هدف PPO للتحكم في التباعد بين السياسات المتعاقبة، يتم تعديلها تكيفياً للحفاظ على التحديثات في منطقة مقبولة.
← رجوع