Глоссарий ИИ
Полный словарь искусственного интеллекта
Actor-Critic
Architecture d'apprentissage par renforcement combinant un réseau acteur qui apprend une politique stochastique et un réseau critique qui estime la fonction de valeur pour réduire la variance du gradient de politique.
Value Function
Fonction mathématique estimant le retour cumulé attendu depuis un état ou une paire état-action, servant de signal d'apprentissage pour le critique dans l'architecture Actor-Critic.
Asynchronous Advantage Actor-Critic
Architecture distribuée où plusieurs agents s'entraînent en parallèle sur des environnements indépendants, partageant périodiquement leurs gradients pour accélérer l'apprentissage.
Deep Deterministic Policy Gradient
Algorithme Actor-Critic pour espaces d'action continus utilisant des réseaux neuronaux profonds avec politique déterministe et replay buffer pour l'apprentissage hors-politique stable.
Twin Delayed Deep Deterministic Policy Gradient
Amélioration de DDPG utilisant deux critiques jumeaux pour réduire la surévaluation de la valeur et des mises à jour différées de l'acteur et des cibles pour une meilleure stabilité.
Soft Actor-Critic
Algorithme Actor-Critic maximisant une récompense entropique combinant retour et entropie pour encourager l'exploration, utilisant des mises à jour hors-politique stables et efficaces.
Advantage Actor-Critic
Variante synchrone de A3C utilisant l'estimation de l'avantage pour réduire la variance du gradient de politique, avec des mises à jour batch pour une meilleure stabilité sur GPU.
Critic Network
Réseau neuronal estimant la fonction de valeur V(s) ou Q(s,a) pour fournir le signal d'apprentissage TD à l'acteur, utilisant l'erreur de prédiction comme gradient d'optimisation.