Trust Region Policy Optimization (TRPO)
Eficiencia de Muestreo
Medida de la eficiencia de un algoritmo de aprendizaje por refuerzo para utilizar los datos recolectados, TRPO siendo conocido por su buena eficiencia de muestreo.
← Volver