Double Q-learning

📖

termen

Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.

📖

termen

Surestimation maximale

Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.

📖

termen

Estimateurs Q découplés

Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.

📖

termen

Mise à jour alternée

Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.

📖

termen

Biais de maximisation

Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.

📖

termen

Décomposition de l'erreur

Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.

📖

termen

Apprentissage hors-politique

Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.

📖

termen

Valeur d'action estimée

Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.

📖

termen

Stabilité de convergence

Propriété améliorée dans Double Q-learning par rapport au Q-learning classique, assurant une convergence plus fiable vers la politique optimale en présence de bruit et de stochasticité.

📖

termen

Erreur de TD double

Variante de l'erreur de différence temporelle utilisée dans Double Q-learning, combinant les estimations des deux fonctions Q pour calculer une cible d'apprentissage non biaisée.

📖

termen

Optimisme spurious

Phénomène où le Q-learning développe une confiance excessive dans des actions sous-optimales dû au biais de surestimation, phénomène atténué par Double Q-learning grâce à l'évaluation croisée.

📖

termen

Ratio signal-bruit

Métrique améliorée dans Double Q-learning où la réduction du biais de maximisation permet un meilleur rapport entre le vrai signal d'apprentissage et le bruit stochastique des estimations.

📖

termen

Expérience de replay

Technique combinant le buffer d'expériences avec Double Q-learning, où les transitions passées sont réutilisées avec alternance entre les deux estimateurs pour un apprentissage plus efficient.

📖

termen

Variance accrue

Trade-off dans Double Q-learning où la réduction du biais s'accompagne d'une augmentation potentielle de la variance des estimations, nécessitant un ajustement careful des hyperparamètres.

📖

termen

Évaluation croisée

Principe fondamental de Double Q-learning où chaque estimateur Q évalue les actions sélectionnées par l'autre, créant une validation croisée qui prévient la surestimation systématique.

📖

termen

Factorisation de l'espace d'actions

Application avancée de Double Q-learning où les deux estimateurs se spécialisent dans différents sous-ensembles d'actions, optimisant la réduction du biais dans des espaces d'action complexes.

AI-woordenlijst