Optimisation par Bandits
Gradient bandit
Algorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← IndietroAlgorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← Indietro