Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242

catégories

3 353

sous-catégories

40 780

termes

📖

termes

Fisher Information Matrix

Matrice qui mesure la quantité d'information qu'un observable aléatoire porte sur un paramètre inconnu, utilisée dans TRPO pour définir la géométrie de l'espace des paramètres.

📖

termes

KL Divergence

Mesure de dissimilarité entre deux distributions de probabilités, utilisée dans TRPO comme contrainte pour limiter l'écart entre les politiques successives.

📖

termes

Conjugate Gradient

Algorithme d'optimisation itératif utilisé dans TRPO pour résoudre efficacement les systèmes linéaires dans la direction de descente du gradient naturel.

📖

termes

Line Search

Procédure d'optimisation qui ajuste la taille du pas pour garantir que la mise à jour respecte les contraintes de la région de confiance dans TRPO.

📖

termes

Monotonic Improvement Theory

Théorie garantissant qu'une politique mise à jour avec TRPO améliore toujours ou maintient la performance attendue sous certaines conditions de région de confiance.

📖

termes

Reward-to-go

Estimateur de la fonction de valeur qui utilise uniquement les récompenses futures après un timestep donné pour réduire la variance dans l'estimation du gradient.

📖

termes

Sample Efficiency

Mesure de l'efficacité d'un algorithme d'apprentissage par renforcement à utiliser les données collectées, TRPO étant connu pour sa bonne efficacité d'échantillonnage.

📖

termes

On-policy Learning

Paradigme d'apprentissage où les données collectées doivent provenir de la politique actuelle, caractéristique fondamentale de TRPO contrairement aux méthodes off-policy.

🔍

Glossaire IA

Fisher Information Matrix

KL Divergence

Conjugate Gradient

Line Search

Monotonic Improvement Theory

Reward-to-go

Sample Efficiency

On-policy Learning

Aucun résultat trouvé