Słownik AI
Kompletny słownik sztucznej inteligencji
Double Q-learning
Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.
Surestimation maximale
Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.
Estimateurs Q découplés
Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.
Mise à jour alternée
Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.
Biais de maximisation
Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.
Décomposition de l'erreur
Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.
Apprentissage hors-politique
Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.
Valeur d'action estimée
Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.
Stabilité de convergence
Propriété améliorée dans Double Q-learning par rapport au Q-learning classique, assurant une convergence plus fiable vers la politique optimale en présence de bruit et de stochasticité.
Erreur de TD double
Variante de l'erreur de différence temporelle utilisée dans Double Q-learning, combinant les estimations des deux fonctions Q pour calculer une cible d'apprentissage non biaisée.
Optimisme spurious
Phénomène où le Q-learning développe une confiance excessive dans des actions sous-optimales dû au biais de surestimation, phénomène atténué par Double Q-learning grâce à l'évaluation croisée.
Ratio signal-bruit
Métrique améliorée dans Double Q-learning où la réduction du biais de maximisation permet un meilleur rapport entre le vrai signal d'apprentissage et le bruit stochastique des estimations.
Expérience de replay
Technique combinant le buffer d'expériences avec Double Q-learning, où les transitions passées sont réutilisées avec alternance entre les deux estimateurs pour un apprentissage plus efficient.
Variance accrue
Trade-off dans Double Q-learning où la réduction du biais s'accompagne d'une augmentation potentielle de la variance des estimations, nécessitant un ajustement careful des hyperparamètres.
Évaluation croisée
Principe fondamental de Double Q-learning où chaque estimateur Q évalue les actions sélectionnées par l'autre, créant une validation croisée qui prévient la surestimation systématique.
Factorisation de l'espace d'actions
Application avancée de Double Q-learning où les deux estimateurs se spécialisent dans différents sous-ensembles d'actions, optimisant la réduction du biais dans des espaces d'action complexes.