AI-woordenlijst

Het complete woordenboek van kunstmatige intelligentie

162

categorieën

2.032

subcategorieën

23.060

termen

📖

termen

Baseline in Policy Gradient

Fonction soustraite du retour pour réduire la variance de l'estimateur de gradient sans introduire de biais, typiquement la fonction de valeur d'état V(s).

📖

termen

Variance Reduction in Policy Gradient

Techniques visant à diminuer la variance des estimateurs de gradient pour améliorer la stabilité et l'efficacité de l'apprentissage, incluant l'utilisation de baselines et de fonctions d'avantage.

📖

termen

Eligibility Traces

Mécanisme combinant apprentissage par Monte Carlo et TD(λ) pour propager les crédits à travers les états temporaires dans les méthodes de gradient de politique.

📖

termen

Gradient Estimator

Estimateur statistique du gradient de la performance par rapport aux paramètres de politique, généralement basé sur le gradient du logarithme de la politique (score function).

📖

termen

Policy Parameterization

Représentation mathématique de la politique utilisant des paramètres θ, typiquement via réseaux de neurones, pour permettre l'optimisation par descente de gradient.

📖

termen

Expected Return

Objectif d'optimisation dans les méthodes de gradient de politique, représentant la somme espérée des récompenses futures actualisées sous une politique donnée.

📖

termen

Score Function

Gradient du logarithme de la politique par rapport à ses paramètres, utilisé dans le théorème du gradient de politique pour calculer les mises à jour directionnelles.

📖

termen

Likelihood Ratio Policy Gradient

Formulation du gradient de politique utilisant le rapport de vraisemblance pour dériver l'estimateur de gradient sans nécessiter de modèle de l'environnement.

🔍

AI-woordenlijst

Baseline in Policy Gradient

Variance Reduction in Policy Gradient

Eligibility Traces

Gradient Estimator

Policy Parameterization

Expected Return

Score Function

Likelihood Ratio Policy Gradient

Geen resultaten gevonden