UCB Algorithms
KL-UCB
Variante de UCB utilisant la divergence de Kullback-Leibler pour construire des bornes de confiance asymptotiquement optimales, particulièrement adaptée aux récompenses bornées.
← Zurück