تدرج السياسة الحتمية العميق (DDPG)
التعلم خارج السياسة
طريقة تعلم حيث يتعلم الوكيل سياسة مثالية أثناء اتباعه لسياسة سلوك أخرى، مما يسمح باستكشاف أفضل.
← رجوعطريقة تعلم حيث يتعلم الوكيل سياسة مثالية أثناء اتباعه لسياسة سلوك أخرى، مما يسمح باستكشاف أفضل.
← رجوع