🏠 Home
Benchmark Hub
📊 All Benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List Applications 🎨 Creative Free Pages 🎯 FSACB - Ultimate Showcase 🌍 Translation Benchmark
Models
🏆 Top 10 Models 🆓 Free Models 📋 All Models ⚙️ Kilo Code
Resources
💬 Prompts Library 📖 AI Glossary 🔗 Useful Links

AI Glossary

The complete dictionary of Artificial Intelligence

162
categories
2,032
subcategories
23,060
terms
📖
terms

Baseline in Policy Gradient

Fonction soustraite du retour pour réduire la variance de l'estimateur de gradient sans introduire de biais, typiquement la fonction de valeur d'état V(s).

📖
terms

Variance Reduction in Policy Gradient

Techniques visant à diminuer la variance des estimateurs de gradient pour améliorer la stabilité et l'efficacité de l'apprentissage, incluant l'utilisation de baselines et de fonctions d'avantage.

📖
terms

Eligibility Traces

Mécanisme combinant apprentissage par Monte Carlo et TD(λ) pour propager les crédits à travers les états temporaires dans les méthodes de gradient de politique.

📖
terms

Gradient Estimator

Estimateur statistique du gradient de la performance par rapport aux paramètres de politique, généralement basé sur le gradient du logarithme de la politique (score function).

📖
terms

Policy Parameterization

Représentation mathématique de la politique utilisant des paramètres θ, typiquement via réseaux de neurones, pour permettre l'optimisation par descente de gradient.

📖
terms

Expected Return

Objectif d'optimisation dans les méthodes de gradient de politique, représentant la somme espérée des récompenses futures actualisées sous une politique donnée.

📖
terms

Score Function

Gradient du logarithme de la politique par rapport à ses paramètres, utilisé dans le théorème du gradient de politique pour calculer les mises à jour directionnelles.

📖
terms

Likelihood Ratio Policy Gradient

Formulation du gradient de politique utilisant le rapport de vraisemblance pour dériver l'estimateur de gradient sans nécessiter de modèle de l'environnement.

🔍

No results found