Algoritmos UCB
UCB1
Algoritmo UCB básico que utiliza a desigualdade de Hoeffding para calcular os limites de confiança, oferecendo um arrependimento logarítmico garantido no contexto de bandidos estacionários.
← Voltar