🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Double Q-learning

Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.

📖
術語

Surestimation maximale

Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.

📖
術語

Estimateurs Q découplés

Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.

📖
術語

Mise à jour alternée

Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.

📖
術語

Biais de maximisation

Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.

📖
術語

Décomposition de l'erreur

Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.

📖
術語

Apprentissage hors-politique

Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.

📖
術語

Valeur d'action estimée

Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.

📖
術語

Stabilité de convergence

Propriété améliorée dans Double Q-learning par rapport au Q-learning classique, assurant une convergence plus fiable vers la politique optimale en présence de bruit et de stochasticité.

📖
術語

Erreur de TD double

Variante de l'erreur de différence temporelle utilisée dans Double Q-learning, combinant les estimations des deux fonctions Q pour calculer une cible d'apprentissage non biaisée.

📖
術語

Optimisme spurious

Phénomène où le Q-learning développe une confiance excessive dans des actions sous-optimales dû au biais de surestimation, phénomène atténué par Double Q-learning grâce à l'évaluation croisée.

📖
術語

Ratio signal-bruit

Métrique améliorée dans Double Q-learning où la réduction du biais de maximisation permet un meilleur rapport entre le vrai signal d'apprentissage et le bruit stochastique des estimations.

📖
術語

Expérience de replay

Technique combinant le buffer d'expériences avec Double Q-learning, où les transitions passées sont réutilisées avec alternance entre les deux estimateurs pour un apprentissage plus efficient.

📖
術語

Variance accrue

Trade-off dans Double Q-learning où la réduction du biais s'accompagne d'une augmentation potentielle de la variance des estimations, nécessitant un ajustement careful des hyperparamètres.

📖
術語

Évaluation croisée

Principe fondamental de Double Q-learning où chaque estimateur Q évalue les actions sélectionnées par l'autre, créant une validation croisée qui prévient la surestimation systématique.

📖
術語

Factorisation de l'espace d'actions

Application avancée de Double Q-learning où les deux estimateurs se spécialisent dans différents sous-ensembles d'actions, optimisant la réduction du biais dans des espaces d'action complexes.

🔍

搵唔到結果