Processus Observables Partiellement
Récompense attendue conditionnelle
Valeur espérée de la récompense future étant donné un état de croyance courant et une politique spécifique. Cette quantité sert de critère d'optimisation pour déterminer les meilleures actions dans un environnement incertain.
← Quay lại