Bandits Contextuels
Action-Value Function
Fonction Q(a,x) qui estime la récompense future attendue en prenant l'action 'a' dans le contexte 'x', fondamentale pour l'évaluation des politiques.
← Retour