Policy Gradient Methods
Policy Network
Réseau neuronal paramétré qui représente la politique π(a|s; θ), générant une distribution de probabilités sur les actions conditionnées à l'état actuel.
← Retour