Bandidos Contextuales
Función de Recompensa
Función matemática que cuantifica la recompensa inmediata obtenida después de tomar una acción en un contexto dado, guiando el aprendizaje del algoritmo.
← Volver