Optimisation par Bandits
Gradient bandit
Algorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← Quay lạiAlgorithme utilisant des estimations de gradient pour ajuster les préférences d'action basées sur les récompenses reçues.
← Quay lại