Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Clipping Function
Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.
Trust Region
Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.
Surrogate Objective
Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.
KL Divergence Penalty
Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.
Mini-batch Updates
Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.
Clip Range Parameter
Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.
Value Function Clipping
Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.
Epoch Optimization
Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.
Normalized Advantage
Technique de normalisation des estimations d'avantage pour stabiliser l'entraînement en maintenant une échelle cohérente des gradients entre les mises à jour.
Experience Collection
Phase PPO où l'agent interagit avec l'environnement en suivant la politique actuelle pour collecter des transitions (état, action, récompense) utilisées pour l'optimisation.
Adaptive KL Penalty
Variante PPO qui ajuste dynamiquement la force de la pénalité KL en fonction de la divergence observée entre les politiques, assurant des mises à jour contrôlées.