Proximal Policy Optimization (PPO)

📖

termos

Clipping Function

Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.

📖

termos

Trust Region

Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.

📖

termos

Surrogate Objective

Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.

📖

termos

KL Divergence Penalty

Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.

📖

termos

Mini-batch Updates

Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.

📖

termos

Clip Range Parameter

Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.

📖

termos

Value Function Clipping

Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.

📖

termos

Epoch Optimization

Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.

📖

termos

Vantagem Normalizada

Técnica de normalização das estimativas de vantagem para estabilizar o treinamento mantendo uma escala consistente de gradientes entre as atualizações.

📖

termos

Coleta de Experiência

Fase PPO onde o agente interage com o ambiente seguindo a política atual para coletar transições (estado, ação, recompensa) usadas para otimização.

📖

termos

Penalidade KL Adaptativa

Variante PPO que ajusta dinamicamente a força da penalidade KL com base na divergência observada entre as políticas, garantindo atualizações controladas.

Glossário IA

Clipping Function

Trust Region

Surrogate Objective

KL Divergence Penalty

Mini-batch Updates

Clip Range Parameter

Value Function Clipping

Epoch Optimization

Vantagem Normalizada

Coleta de Experiência

Penalidade KL Adaptativa

Nenhum resultado encontrado