Optimisation par Bandits
Gradient bandit
Algorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← WsteczAlgorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← Wstecz