UCB Algorithms
Regret logarithmique
Mesure de performance des algorithmes UCB où le regret cumulé croît logarithmiquement avec le temps, caractérisant l'optimalité dans les problèmes de bandits stationnaires.
← Kembali