التعلم الزمني التفاضلي
SARSA
خوارزمية تعلم زمني تفاضلي ضمن السياسة (on-policy) تقوم بتحديث قيم الإجراء-الحالة باستخدام الخماسية (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي).
← رجوع