AI Glossary

The complete dictionary of Artificial Intelligence

162

Baseline in Policy Gradient

Fonction soustraite du retour pour réduire la variance de l'estimateur de gradient sans introduire de biais, typiquement la fonction de valeur d'état V(s).

📖

terms

Variance Reduction in Policy Gradient

Techniques visant à diminuer la variance des estimateurs de gradient pour améliorer la stabilité et l'efficacité de l'apprentissage, incluant l'utilisation de baselines et de fonctions d'avantage.

📖

terms

Eligibility Traces

Mécanisme combinant apprentissage par Monte Carlo et TD(λ) pour propager les crédits à travers les états temporaires dans les méthodes de gradient de politique.

📖

terms

Gradient Estimator

Estimateur statistique du gradient de la performance par rapport aux paramètres de politique, généralement basé sur le gradient du logarithme de la politique (score function).

📖

terms

Policy Parameterization

Représentation mathématique de la politique utilisant des paramètres θ, typiquement via réseaux de neurones, pour permettre l'optimisation par descente de gradient.

📖

terms

Expected Return

Objectif d'optimisation dans les méthodes de gradient de politique, représentant la somme espérée des récompenses futures actualisées sous une politique donnée.

📖

terms

Score Function

Gradient du logarithme de la politique par rapport à ses paramètres, utilisé dans le théorème du gradient de politique pour calculer les mises à jour directionnelles.

📖

terms

Likelihood Ratio Policy Gradient

Formulation du gradient de politique utilisant le rapport de vraisemblance pour dériver l'estimateur de gradient sans nécessiter de modèle de l'environnement.

🔍

AI Glossary

Baseline in Policy Gradient

Variance Reduction in Policy Gradient

Eligibility Traces

Gradient Estimator

Policy Parameterization

Expected Return

Score Function

Likelihood Ratio Policy Gradient

No results found