Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Deep Q-Networks (DQN)
Algorithme pionnier combinant Q-learning avec des réseaux de neurones profonds pour approximer la fonction de valeur Q dans des espaces d'états complexes.
Policy Gradient Methods
Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.
Actor-Critic Methods
Architecture hybride combinant un acteur qui apprend la politique et un critique qui évalue la valeur des états ou des actions.
Deep Deterministic Policy Gradient (DDPG)
Algorithme actor-critic off-policy pour les environnements avec espaces d'action continus utilisant des réseaux de neurones profonds.
Proximal Policy Optimization (PPO)
Méthode d'optimisation de politique qui maintient les mises à jour dans une région de confiance pour garantir une stabilité d'apprentissage.
Trust Region Policy Optimization (TRPO)
Algorithme d'optimisation contrainte qui garantit que les nouvelles politiques ne s'éloignent pas trop des anciennes politiques.
Multi-Agent Deep RL
Extension du deep RL où plusieurs agents apprennent simultanément, en coopération ou en compétition dans un environnement partagé.
Hierarchical Reinforcement Learning
Approche structurant l'apprentissage en niveaux hiérarchiques avec des méta-politiques contrôlant des sous-politiques spécialisées.
Model-Based Deep RL
Technique où l'agent apprend un modèle de l'environnement pour planifier et prendre des décisions plus efficaces.
Distributional RL
Paradigme apprenant la distribution complète des retours plutôt que seulement leur espérance pour une meilleure robustesse.
Curiosity-Driven RL
Approche où l'agent reçoit des rewards intrinsèques basés sur sa curiosité pour explorer efficacement l'environnement.
Meta-Learning in RL
Technique permettant aux agents d'apprendre à apprendre rapidement de nouvelles tâches avec peu d'expériences.