Algoritmos UCB
Arrepentimiento logarítmico
Medida de rendimiento de los algoritmos UCB donde el arrepentimiento acumulado crece logarítmicamente con el tiempo, caracterizando la optimalidad en los problemas de bandidos estacionarios.
← Volver