Bandits à Bras Multiples
Taux de Convergence
Vitesse à laquelle l'algorithme approche la politique optimale, mesurant l'efficacité asymptotique de la stratégie d'apprentissage.
← VolverVitesse à laquelle l'algorithme approche la politique optimale, mesurant l'efficacité asymptotique de la stratégie d'apprentissage.
← Volver