Proximal Policy Optimization (PPO)

📖

termes

Clipping Function

Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.

📖

termes

Trust Region

Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.

📖

termes

Surrogate Objective

Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.

📖

termes

KL Divergence Penalty

Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.

📖

termes

Mini-batch Updates

Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.

📖

termes

Clip Range Parameter

Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.

📖

termes

Value Function Clipping

Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.

📖

termes

Epoch Optimization

Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.

📖

termes

Normalized Advantage

Technique de normalisation des estimations d'avantage pour stabiliser l'entraînement en maintenant une échelle cohérente des gradients entre les mises à jour.

📖

termes

Experience Collection

Phase PPO où l'agent interagit avec l'environnement en suivant la politique actuelle pour collecter des transitions (état, action, récompense) utilisées pour l'optimisation.

📖

termes

Adaptive KL Penalty

Variante PPO qui ajuste dynamiquement la force de la pénalité KL en fonction de la divergence observée entre les politiques, assurant des mises à jour contrôlées.

Glossaire IA

Clipping Function

Trust Region

Surrogate Objective

KL Divergence Penalty

Mini-batch Updates

Clip Range Parameter

Value Function Clipping

Epoch Optimization

Normalized Advantage

Experience Collection

Adaptive KL Penalty

Aucun résultat trouvé