Métodos de Gradiente de Política
Algoritmo REINFORCE
Algoritmo base del gradiente de política que utiliza una estimación Monte Carlo del gradiente para actualizar los parámetros de la política según los episodios completamente observados.
← Volver