Aprendizaje Temporal Diferencial
TD(λ)
Algoritmo generalizado de aprendizaje temporal diferencial que utiliza un parámetro λ para ponderar los retornos de n pasos y las trazas de elegibilidad, permitiendo un equilibrio entre TD(0) y Monte Carlo.
← Volver