Gradiente de Política Determinista Profunda (DDPG)
Soft Update
Método de actualización progresiva de redes objetivo utilizando un coeficiente tau (τ) para mezclar lentamente los pesos de las redes principales y objetivo.
← Volver