Bandidos Contextuales
Regret Minimization
Objetivo que busca minimizar la diferencia entre la recompensa acumulada obtenida y la de la política óptima, midiendo el rendimiento del algoritmo.
← Volver