Policy Gradient Methods
Baseline Function
Fonction soustraite du retour pour réduire la variance de l'estimation du gradient sans introduire de biais, typiquement la fonction de valeur de l'état.
← Retour