Policy Gradient Methods
Proximal Policy Optimization (PPO)
خوارزمية تحسن السياسة عن طريق تقييد التحديثات لتبقى قريبة من السياسة السابقة، مستخدمة دالة هدف مقصوصة لضمان استقرار التعلم.
← رجوعخوارزمية تحسن السياسة عن طريق تقييد التحديثات لتبقى قريبة من السياسة السابقة، مستخدمة دالة هدف مقصوصة لضمان استقرار التعلم.
← رجوع