Policy Gradient Methods
REINFORCE Algorithm
خوارزمية أساسية لتدرج السياسة تستخدم تقدير مونت كارلو للتدرج لتحديث معلمات السياسة بناءً على الحلقات الملاحظة بالكامل.
← رجوعخوارزمية أساسية لتدرج السياسة تستخدم تقدير مونت كارلو للتدرج لتحديث معلمات السياسة بناءً على الحلقات الملاحظة بالكامل.
← رجوع