Double Q-learning

📖

termos

Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.

📖

termos

Surestimation maximale

Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.

📖

termos

Estimateurs Q découplés

Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.

📖

termos

Mise à jour alternée

Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.

📖

termos

Biais de maximisation

Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.

📖

termos

Décomposition de l'erreur

Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.

📖

termos

Apprentissage hors-politique

Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.

📖

termos

Valeur d'action estimée

Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.

📖

termos

Estabilidade de convergência

Propriedade aprimorada no Double Q-learning em comparação ao Q-learning clássico, assegurando uma convergência mais confiável para a política ótima na presença de ruído e estocasticidade.

📖

termos

Erro de diferença temporal dupla

Variante do erro de diferença temporal usada no Double Q-learning, combinando as estimativas das duas funções Q para calcular um alvo de aprendizado não enviesado.

📖

termos

Otimismo espúrio

Fenômeno no qual o Q-learning desenvolve confiança excessiva em ações subótimas devido ao viés de superestimação, fenômeno atenuado pelo Double Q-learning por meio da avaliação cruzada.

📖

termos

Relação sinal-ruído

Métrica aprimorada no Double Q-learning onde a redução do viés de maximização permite uma melhor relação entre o verdadeiro sinal de aprendizado e o ruído estocástico das estimativas.

📖

termos

Replay de experiência

Técnica que combina um buffer de experiências com o Double Q-learning, no qual transições anteriores são reutilizadas com alternância entre os dois estimadores para um aprendizado mais eficiente.

📖

termos

Variância aumentada

Compensação (trade-off) no Double Q-learning onde a redução do viés vem acompanhada de um aumento potencial da variância das estimativas, exigindo um ajuste cuidadoso dos hiperparâmetros.

📖

termos

Avaliação cruzada

Princípio fundamental do Double Q-learning no qual cada estimador Q avalia as ações selecionadas pelo outro, criando uma validação cruzada que evita a superestimação sistemática.

📖

termos

Fatoração do espaço de ações

Aplicação avançada do Double Q-learning onde os dois estimadores se especializam em diferentes subconjuntos de ações, otimizando a redução do viés em espaços de ação complexos.

Glossário IA