Trust Region Policy Optimization (TRPO)
Sample Efficiency
Mesure de l'efficacité d'un algorithme d'apprentissage par renforcement à utiliser les données collectées, TRPO étant connu pour sa bonne efficacité d'échantillonnage.
← Retour