Policy Gradient Methods
Advantage Function
مقياس لتفوق إجراء ما على متوسط الإجراءات في حالة معينة، ويحسب كالفارق بين دالة Q ودالة V لتقليل تباين التدرج.
← رجوعمقياس لتفوق إجراء ما على متوسط الإجراءات في حالة معينة، ويحسب كالفارق بين دالة Q ودالة V لتقليل تباين التدرج.
← رجوع