التعلم المعزز العميق
تدرج السياسة الحتمي العميق (DDPG)
خوارزمية خارج السياسة (off-policy) لمساحات العمل المستمرة تجمع بين DQN والممثل-الناقد، وتستخدم شبكات مستهدفة وسياسة حتمية.
← رجوعخوارزمية خارج السياسة (off-policy) لمساحات العمل المستمرة تجمع بين DQN والممثل-الناقد، وتستخدم شبكات مستهدفة وسياسة حتمية.
← رجوع