Aprendizaje Temporal Diferencial
Retorno TD
Estimación del retorno esperado desde un estado dado, calculado combinando las recompensas inmediatas con las estimaciones de valor futuro según el método de diferencia temporal.
← Volver