التحسين العشوائي في التعلم المعزز
تنظيم تباعد KL
قيد ينظم التباعد بين السياسة الحالية والسابقة عبر تباعد كولباك-لايبلر، مما يمنع التغيرات المفاجئة في السياسة.
← رجوعقيد ينظم التباعد بين السياسة الحالية والسابقة عبر تباعد كولباك-لايبلر، مما يمنع التغيرات المفاجئة في السياسة.
← رجوع