تدرج السياسة الحتمية العميق (DDPG)
الشبكات المستهدفة
شبكات عصبية مكررة بأوزان يتم تحديثها ببطء لاستقرار التعلم من خلال توفير أهداف أكثر اتساقًا.
← رجوعشبكات عصبية مكررة بأوزان يتم تحديثها ببطء لاستقرار التعلم من خلال توفير أهداف أكثر اتساقًا.
← رجوع