Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Fisher Information Matrix
Matrice qui mesure la quantité d'information qu'un observable aléatoire porte sur un paramètre inconnu, utilisée dans TRPO pour définir la géométrie de l'espace des paramètres.
KL Divergence
Mesure de dissimilarité entre deux distributions de probabilités, utilisée dans TRPO comme contrainte pour limiter l'écart entre les politiques successives.
Conjugate Gradient
Algorithme d'optimisation itératif utilisé dans TRPO pour résoudre efficacement les systèmes linéaires dans la direction de descente du gradient naturel.
Line Search
Procédure d'optimisation qui ajuste la taille du pas pour garantir que la mise à jour respecte les contraintes de la région de confiance dans TRPO.
Monotonic Improvement Theory
Théorie garantissant qu'une politique mise à jour avec TRPO améliore toujours ou maintient la performance attendue sous certaines conditions de région de confiance.
Reward-to-go
Estimateur de la fonction de valeur qui utilise uniquement les récompenses futures après un timestep donné pour réduire la variance dans l'estimation du gradient.
Sample Efficiency
Mesure de l'efficacité d'un algorithme d'apprentissage par renforcement à utiliser les données collectées, TRPO étant connu pour sa bonne efficacité d'échantillonnage.
On-policy Learning
Paradigme d'apprentissage où les données collectées doivent provenir de la politique actuelle, caractéristique fondamentale de TRPO contrairement aux méthodes off-policy.