Optimización en Línea
Algoritmo de Bandido
Familia de algoritmos de aprendizaje en línea donde el agente debe seleccionar secuencialmente acciones con recompensas inciertas para maximizar la ganancia acumulada.
← Volver