Algoritmos UCB
KL-UCB
Variante de UCB que utiliza la divergencia de Kullback-Leibler para construir límites de confianza asintóticamente óptimos, particularmente adecuada para recompensas acotadas.
← Volver