Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Policy Gradient
Méthode d'optimisation directe qui ajuste les paramètres de la politique en suivant le gradient du retour attendu, permettant l'apprentissage de politiques stochastiques sans nécessité de modèle de l'environnement.
REINFORCE Algorithm
Algorithme de base du policy gradient utilisant une estimation Monte Carlo du gradient pour mettre à jour les paramètres de la politique selon les épisodes complètement observés.
Actor-Critic Methods
Approche hybride combinant un acteur qui apprend la politique et un critique qui estime la fonction de valeur, réduisant la variance des estimations du gradient de politique.
Advantage Function
Mesure de la supériorité d'une action par rapport à la moyenne des actions dans un état donné, calculée comme la différence entre la fonction Q et la fonction V pour réduire la variance du gradient.
Proximal Policy Optimization (PPO)
Algorithme optimisant la politique en contraint les mises à jour pour rester proches de la politique précédente, utilisant une fonction objectif clipée pour garantir la stabilité de l'apprentissage.
Trust Region Policy Optimization (TRPO)
Méthode garantissant des améliorations monotones de la performance en optimisant la politique dans une région de confiance définie par la divergence KL entre politiques successives.
Natural Policy Gradient
Variante du policy gradient utilisant la métrique de Fisher pour effectuer des mises à jour invariantes à la paramétrisation, garantissant une convergence plus stable et efficace.
Policy Network
Réseau neuronal paramétré qui représente la politique π(a|s; θ), générant une distribution de probabilités sur les actions conditionnées à l'état actuel.
Monte Carlo Policy Gradient
Technique d'estimation du gradient utilisant des trajectoires complètes pour calculer les retours, permettant une estimation sans biais mais avec haute variance.
Baseline Function
Fonction soustraite du retour pour réduire la variance de l'estimation du gradient sans introduire de biais, typiquement la fonction de valeur de l'état.
Importance Sampling
Technique permettant d'utiliser des données collectées avec une ancienne politique pour mettre à jour une nouvelle politique, en pondérant les échantillons selon le ratio de probabilité des politiques.
Entropy Regularization
Ajout d'un terme d'entropie à la fonction objectif pour encourager l'exploration en pénalisant les politiques trop déterministes, améliorant la robustesse de l'apprentissage.
Deterministic Policy Gradient
Extension du policy gradient aux espaces d'action continus où la politique est déterministe, particulièrement efficace dans les environnements à haute dimensionalité.
Stochastic Policy
Politique représentée par une distribution de probabilités π(a|s) sur les actions, permettant l'exploration intrinsèque et essentielle pour les méthodes de policy gradient.
KL Divergence Constraint
Contrainte limitant la divergence Kullback-Leibler entre politiques successives pour garantir des mises à jour stables et éviter des changements trop drastiques de comportement.
Generalized Advantage Estimation (GAE)
Méthode d'estimation de l'avantage combinant biais et variance par une moyenne pondérée d'estimateurs multi-pas, offrant un compromis optimal pour l'apprentissage.
Policy Gradient Theorem
Théorème fondamental fournissant une expression analytique du gradient du retour attendu par rapport aux paramètres de la politique, formulant la base théorique des méthodes.
Return-to-Go
Somme des récompenses futures actualisées à partir d'un pas de temps donné, utilisée comme estimateur du gradient dans les algorithmes de policy gradient.