Bandits Contextuels
Reward Function
Fonction mathématique qui quantifie le retour immédiat obtenu après avoir pris une action dans un contexte donné, guidant l'apprentissage de l'algorithme.
← Retour