Glosarium AI
Kamus lengkap Kecerdasan Buatan
Policy Gradient Stochastique
Méthode d'optimisation directe de la politique en utilisant des estimations de gradient basées sur des trajectoires échantillonnées, permettant de gérer des espaces d'action continus et discrets.
Actor-Critic Stochastique
Architecture hybride combinant un acteur stochastique apprenant la politique et un critique estimant la fonction de valeur pour réduire la variance des estimations de gradient.
Natural Gradient
Méthode d'optimisation suivant la géométrie de l'espace des paramètres définie par la métrique de Fisher, adaptée naturellement aux problèmes stochastiques en RL.
Stochastic Gradient Descent
Algorithme d'optimisation itératif utilisant des estimations bruitées du gradient calculées sur des mini-batchs de données pour mettre à jour les paramètres du modèle.
Robbins-Monro Algorithm
Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.
Stochastic Approximation
Cadre théorique pour l'optimisation en présence de bruit, fournissant des garanties de convergence pour les algorithmes d'apprentissage utilisant des estimations bruitées.
Importance Sampling en RL
Technique permettant d'utiliser des données collectées avec une ancienne politique pour entraîner une nouvelle politique, en pondérant les échantillons par le rapport des densités.
KL Divergence Regularization
Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.
Noise Injection in Policy
Stratégie d'exploration ajoutant du bruit stochastique directement aux paramètres ou aux sorties de la politique pour maintenir l'exploration pendant l'optimisation.
Stochastic Neural Networks in RL
Réseaux de neurones intégrant de l'incertitude dans leurs paramètres ou activations, utilisés comme politiques stochastiques pour modéliser des distributions complexes d'actions.