🏠 Home
Prestatietests
📊 Alle benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List applicaties 🎨 Creatieve vrije pagina's 🎯 FSACB - Ultieme showcase 🌍 Vertaalbenchmark
Modellen
🏆 Top 10 modellen 🆓 Gratis modellen 📋 Alle modellen ⚙️ Kilo Code
Bronnen
💬 Promptbibliotheek 📖 AI-woordenlijst 🔗 Nuttige links

AI-woordenlijst

Het complete woordenboek van kunstmatige intelligentie

162
categorieën
2.032
subcategorieën
23.060
termen
📖
termen

Baseline in Policy Gradient

Fonction soustraite du retour pour réduire la variance de l'estimateur de gradient sans introduire de biais, typiquement la fonction de valeur d'état V(s).

📖
termen

Variance Reduction in Policy Gradient

Techniques visant à diminuer la variance des estimateurs de gradient pour améliorer la stabilité et l'efficacité de l'apprentissage, incluant l'utilisation de baselines et de fonctions d'avantage.

📖
termen

Eligibility Traces

Mécanisme combinant apprentissage par Monte Carlo et TD(λ) pour propager les crédits à travers les états temporaires dans les méthodes de gradient de politique.

📖
termen

Gradient Estimator

Estimateur statistique du gradient de la performance par rapport aux paramètres de politique, généralement basé sur le gradient du logarithme de la politique (score function).

📖
termen

Policy Parameterization

Représentation mathématique de la politique utilisant des paramètres θ, typiquement via réseaux de neurones, pour permettre l'optimisation par descente de gradient.

📖
termen

Expected Return

Objectif d'optimisation dans les méthodes de gradient de politique, représentant la somme espérée des récompenses futures actualisées sous une politique donnée.

📖
termen

Score Function

Gradient du logarithme de la politique par rapport à ses paramètres, utilisé dans le théorème du gradient de politique pour calculer les mises à jour directionnelles.

📖
termen

Likelihood Ratio Policy Gradient

Formulation du gradient de politique utilisant le rapport de vraisemblance pour dériver l'estimateur de gradient sans nécessiter de modèle de l'environnement.

🔍

Geen resultaten gevonden