Glossário IA
O dicionário completo da Inteligência Artificial
Double Q-learning
Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.
Surestimation maximale
Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.
Estimateurs Q découplés
Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.
Mise à jour alternée
Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.
Biais de maximisation
Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.
Décomposition de l'erreur
Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.
Apprentissage hors-politique
Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.
Valeur d'action estimée
Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.
Estabilidade de convergência
Propriedade aprimorada no Double Q-learning em comparação ao Q-learning clássico, assegurando uma convergência mais confiável para a política ótima na presença de ruído e estocasticidade.
Erro de diferença temporal dupla
Variante do erro de diferença temporal usada no Double Q-learning, combinando as estimativas das duas funções Q para calcular um alvo de aprendizado não enviesado.
Otimismo espúrio
Fenômeno no qual o Q-learning desenvolve confiança excessiva em ações subótimas devido ao viés de superestimação, fenômeno atenuado pelo Double Q-learning por meio da avaliação cruzada.
Relação sinal-ruído
Métrica aprimorada no Double Q-learning onde a redução do viés de maximização permite uma melhor relação entre o verdadeiro sinal de aprendizado e o ruído estocástico das estimativas.
Replay de experiência
Técnica que combina um buffer de experiências com o Double Q-learning, no qual transições anteriores são reutilizadas com alternância entre os dois estimadores para um aprendizado mais eficiente.
Variância aumentada
Compensação (trade-off) no Double Q-learning onde a redução do viés vem acompanhada de um aumento potencial da variância das estimativas, exigindo um ajuste cuidadoso dos hiperparâmetros.
Avaliação cruzada
Princípio fundamental do Double Q-learning no qual cada estimador Q avalia as ações selecionadas pelo outro, criando uma validação cruzada que evita a superestimação sistemática.
Fatoração do espaço de ações
Aplicação avançada do Double Q-learning onde os dois estimadores se especializam em diferentes subconjuntos de ações, otimizando a redução do viés em espaços de ação complexos.