Métodos Actor-Crítico
Actor-Critic
Arquitectura de aprendizaje por refuerzo combinando una red actor que aprende una política estocástica y una red crítica que estima la función de valor para reducir la varianza del gradiente de política.
← Volver