🏠 Startseite
Vergleiche
📊 Alle Benchmarks 🦖 Dinosaurier v1 🦖 Dinosaurier v2 ✅ To-Do-Listen-Apps 🎨 Kreative freie Seiten 🎯 FSACB - Ultimatives Showcase 🌍 Übersetzungs-Benchmark
Modelle
🏆 Top 10 Modelle 🆓 Kostenlose Modelle 📋 Alle Modelle ⚙️ Kilo Code
Ressourcen
💬 Prompt-Bibliothek 📖 KI-Glossar 🔗 Nützliche Links

KI-Glossar

Das vollständige Wörterbuch der Künstlichen Intelligenz

162
Kategorien
2.032
Unterkategorien
23.060
Begriffe
📖
Begriffe

Baseline in Policy Gradient

Fonction soustraite du retour pour réduire la variance de l'estimateur de gradient sans introduire de biais, typiquement la fonction de valeur d'état V(s).

📖
Begriffe

Variance Reduction in Policy Gradient

Techniques visant à diminuer la variance des estimateurs de gradient pour améliorer la stabilité et l'efficacité de l'apprentissage, incluant l'utilisation de baselines et de fonctions d'avantage.

📖
Begriffe

Eligibility Traces

Mécanisme combinant apprentissage par Monte Carlo et TD(λ) pour propager les crédits à travers les états temporaires dans les méthodes de gradient de politique.

📖
Begriffe

Gradient Estimator

Estimateur statistique du gradient de la performance par rapport aux paramètres de politique, généralement basé sur le gradient du logarithme de la politique (score function).

📖
Begriffe

Policy Parameterization

Représentation mathématique de la politique utilisant des paramètres θ, typiquement via réseaux de neurones, pour permettre l'optimisation par descente de gradient.

📖
Begriffe

Expected Return

Objectif d'optimisation dans les méthodes de gradient de politique, représentant la somme espérée des récompenses futures actualisées sous une politique donnée.

📖
Begriffe

Score Function

Gradient du logarithme de la politique par rapport à ses paramètres, utilisé dans le théorème du gradient de politique pour calculer les mises à jour directionnelles.

📖
Begriffe

Likelihood Ratio Policy Gradient

Formulation du gradient de politique utilisant le rapport de vraisemblance pour dériver l'estimateur de gradient sans nécessiter de modèle de l'environnement.

🔍

Keine Ergebnisse gefunden