Policy Gradient Methods
Policy Gradient
طريقة تحسين مباشرة تقوم بتعديل معلمات السياسة باتباع تدرج العائد المتوقع، مما يسمح بتعلم السياسات العشوائية دون الحاجة إلى نموذج للبيئة.
← رجوعطريقة تحسين مباشرة تقوم بتعديل معلمات السياسة باتباع تدرج العائد المتوقع، مما يسمح بتعلم السياسات العشوائية دون الحاجة إلى نموذج للبيئة.
← رجوع