Métodos Actor-Crítico
Critic Network
Red neuronal estimando la función de valor V(s) o Q(s,a) para proporcionar la señal de aprendizaje TD al actor, utilizando el error de predicción como gradiente de optimización.
← Volver