التعلم بالتعزيز متعدد الأهداف المستمر
التعلم المعزز مع فضاء الإجراءات المستمر
نموذج في التعلم المعزز حيث يمكن للوكيل الاختيار من عدد لا نهائي من الإجراءات المستمرة، مما يتطلب خوارزميات تحسين مناسبة مثل PPO أو SAC.
← رجوع