Aprendizaje Temporal Diferencial
SARSA
Algoritmo on-policy de aprendizaje temporal diferencial que actualiza los valores de acción-estado utilizando el quinteto (Estado, Acción, Recompensa, Siguiente Estado, Siguiente Acción).
← Volver