Глоссарий ИИ

Полный словарь искусственного интеллекта

235

категории

2 988

подкатегории

33 628

термины

📖

термины

Actor-Critic

Architecture d'apprentissage par renforcement combinant un réseau acteur qui apprend une politique stochastique et un réseau critique qui estime la fonction de valeur pour réduire la variance du gradient de politique.

📖

термины

Value Function

Fonction mathématique estimant le retour cumulé attendu depuis un état ou une paire état-action, servant de signal d'apprentissage pour le critique dans l'architecture Actor-Critic.

📖

термины

Asynchronous Advantage Actor-Critic

Architecture distribuée où plusieurs agents s'entraînent en parallèle sur des environnements indépendants, partageant périodiquement leurs gradients pour accélérer l'apprentissage.

📖

термины

Deep Deterministic Policy Gradient

Algorithme Actor-Critic pour espaces d'action continus utilisant des réseaux neuronaux profonds avec politique déterministe et replay buffer pour l'apprentissage hors-politique stable.

📖

термины

Twin Delayed Deep Deterministic Policy Gradient

Amélioration de DDPG utilisant deux critiques jumeaux pour réduire la surévaluation de la valeur et des mises à jour différées de l'acteur et des cibles pour une meilleure stabilité.

📖

термины

Soft Actor-Critic

Algorithme Actor-Critic maximisant une récompense entropique combinant retour et entropie pour encourager l'exploration, utilisant des mises à jour hors-politique stables et efficaces.

📖

термины

Advantage Actor-Critic

Variante synchrone de A3C utilisant l'estimation de l'avantage pour réduire la variance du gradient de politique, avec des mises à jour batch pour une meilleure stabilité sur GPU.

📖

термины

Critic Network

Réseau neuronal estimant la fonction de valeur V(s) ou Q(s,a) pour fournir le signal d'apprentissage TD à l'acteur, utilisant l'erreur de prédiction comme gradient d'optimisation.

🔍

Глоссарий ИИ

Actor-Critic

Value Function

Asynchronous Advantage Actor-Critic

Deep Deterministic Policy Gradient

Twin Delayed Deep Deterministic Policy Gradient

Soft Actor-Critic

Advantage Actor-Critic

Critic Network

Результаты не найдены