Deep Deterministic Policy Gradient (DDPG)
Soft Update
Méthode de mise à jour progressive des réseaux cibles utilisant un coefficient tau (τ) pour mélanger lentement les poids des réseaux principaux et cibles.
← Retour