Trayectorias de Elegibilidad
TD(λ) Algorithm
Algoritmo de aprendizaje temporal-diferencia que combina las ventajas de TD(0) y Monte Carlo mediante un parámetro λ que controla la disminución de las trazas de elegibilidad.
← Volver