YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Expected Value Approximation
Méthode traditionnelle en RL qui se concentre uniquement sur l'estimation de l'espérance mathématique des retours futurs. Cette approche néglige la variance et les moments supérieurs de la distribution des retours.
Bellman Distributional Equation
Généralisation de l'équation de Bellman qui opère sur des distributions aléatoires plutôt que sur des valeurs scalaires. Elle décrit comment la distribution des retours se propage à travers les transitions d'états.
Risk-sensitive Policy
Stratégie d'action qui tient compte non seulement de l'espérance mais aussi de la variance ou d'autres caractéristiques de la distribution des retours. Ces politiques peuvent être averses ou chercheuses de risque selon les objectifs.
Cumulative Distribution Function
Fonction mathématique qui donne la probabilité qu'une variable aléatoire prenne une valeur inférieure ou égale à un seuil donné. En distributional RL, elle représente la distribution complète des retours cumulés.
Moment Matching
Technique d'approximation qui cherche à faire correspondre les moments statistiques (moyenne, variance, etc.) de la distribution cible. Elle est parfois utilisée pour simplifier la représentation des distributions en RL.