Glossário IA
O dicionário completo da Inteligência Artificial
Clipping Function
Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.
Trust Region
Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.
Surrogate Objective
Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.
KL Divergence Penalty
Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.
Mini-batch Updates
Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.
Clip Range Parameter
Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.
Value Function Clipping
Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.
Epoch Optimization
Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.
Vantagem Normalizada
Técnica de normalização das estimativas de vantagem para estabilizar o treinamento mantendo uma escala consistente de gradientes entre as atualizações.
Coleta de Experiência
Fase PPO onde o agente interage com o ambiente seguindo a política atual para coletar transições (estado, ação, recompensa) usadas para otimização.
Penalidade KL Adaptativa
Variante PPO que ajusta dinamicamente a força da penalidade KL com base na divergência observada entre as políticas, garantindo atualizações controladas.