Policy Gradient Methods

📖

termes

Policy Gradient

Méthode d'optimisation directe qui ajuste les paramètres de la politique en suivant le gradient du retour attendu, permettant l'apprentissage de politiques stochastiques sans nécessité de modèle de l'environnement.

📖

termes

REINFORCE Algorithm

Algorithme de base du policy gradient utilisant une estimation Monte Carlo du gradient pour mettre à jour les paramètres de la politique selon les épisodes complètement observés.

📖

termes

Actor-Critic Methods

Approche hybride combinant un acteur qui apprend la politique et un critique qui estime la fonction de valeur, réduisant la variance des estimations du gradient de politique.

📖

termes

Advantage Function

Mesure de la supériorité d'une action par rapport à la moyenne des actions dans un état donné, calculée comme la différence entre la fonction Q et la fonction V pour réduire la variance du gradient.

📖

termes

Proximal Policy Optimization (PPO)

Algorithme optimisant la politique en contraint les mises à jour pour rester proches de la politique précédente, utilisant une fonction objectif clipée pour garantir la stabilité de l'apprentissage.

📖

termes

Trust Region Policy Optimization (TRPO)

Méthode garantissant des améliorations monotones de la performance en optimisant la politique dans une région de confiance définie par la divergence KL entre politiques successives.

📖

termes

Natural Policy Gradient

Variante du policy gradient utilisant la métrique de Fisher pour effectuer des mises à jour invariantes à la paramétrisation, garantissant une convergence plus stable et efficace.

📖

termes

Policy Network

Réseau neuronal paramétré qui représente la politique π(a|s; θ), générant une distribution de probabilités sur les actions conditionnées à l'état actuel.

📖

termes

Monte Carlo Policy Gradient

Technique d'estimation du gradient utilisant des trajectoires complètes pour calculer les retours, permettant une estimation sans biais mais avec haute variance.

📖

termes

Baseline Function

Fonction soustraite du retour pour réduire la variance de l'estimation du gradient sans introduire de biais, typiquement la fonction de valeur de l'état.

📖

termes

Importance Sampling

Technique permettant d'utiliser des données collectées avec une ancienne politique pour mettre à jour une nouvelle politique, en pondérant les échantillons selon le ratio de probabilité des politiques.

📖

termes

Entropy Regularization

Ajout d'un terme d'entropie à la fonction objectif pour encourager l'exploration en pénalisant les politiques trop déterministes, améliorant la robustesse de l'apprentissage.

📖

termes

Deterministic Policy Gradient

Extension du policy gradient aux espaces d'action continus où la politique est déterministe, particulièrement efficace dans les environnements à haute dimensionalité.

📖

termes

Stochastic Policy

Politique représentée par une distribution de probabilités π(a|s) sur les actions, permettant l'exploration intrinsèque et essentielle pour les méthodes de policy gradient.

📖

termes

KL Divergence Constraint

Contrainte limitant la divergence Kullback-Leibler entre politiques successives pour garantir des mises à jour stables et éviter des changements trop drastiques de comportement.

📖

termes

Generalized Advantage Estimation (GAE)

Méthode d'estimation de l'avantage combinant biais et variance par une moyenne pondérée d'estimateurs multi-pas, offrant un compromis optimal pour l'apprentissage.

📖

termes

Policy Gradient Theorem

Théorème fondamental fournissant une expression analytique du gradient du retour attendu par rapport aux paramètres de la politique, formulant la base théorique des méthodes.

📖

termes

Return-to-Go

Somme des récompenses futures actualisées à partir d'un pas de temps donné, utilisée comme estimateur du gradient dans les algorithmes de policy gradient.

Glossaire IA

Policy Gradient

REINFORCE Algorithm

Actor-Critic Methods

Advantage Function

Proximal Policy Optimization (PPO)

Trust Region Policy Optimization (TRPO)

Natural Policy Gradient

Policy Network

Monte Carlo Policy Gradient

Baseline Function

Importance Sampling

Entropy Regularization

Deterministic Policy Gradient

Stochastic Policy

KL Divergence Constraint

Generalized Advantage Estimation (GAE)

Policy Gradient Theorem

Return-to-Go

Aucun résultat trouvé