🏠 Home
Prestatietests
📊 Alle benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List applicaties 🎨 Creatieve vrije pagina's 🎯 FSACB - Ultieme showcase 🌍 Vertaalbenchmark
Modellen
🏆 Top 10 modellen 🆓 Gratis modellen 📋 Alle modellen ⚙️ Kilo Code
Bronnen
💬 Promptbibliotheek 📖 AI-woordenlijst 🔗 Nuttige links

AI-woordenlijst

Het complete woordenboek van kunstmatige intelligentie

162
categorieën
2.032
subcategorieën
23.060
termen
📖
termen

Double Q-learning

Algorithme d'apprentissage par renforcement utilisant deux estimateurs Q indépendants pour réduire le biais de surestimation inhérent au Q-learning classique en alternant les mises à jour entre les deux tables.

📖
termen

Surestimation maximale

Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.

📖
termen

Estimateurs Q découplés

Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.

📖
termen

Mise à jour alternée

Mécanisme dans Double Q-learning où les mises à jour sont réparties aléatoirement entre Q1 et Q2, chaque estimateur apprenant à partir des expériences en utilisant l'autre pour l'évaluation de l'action optimale.

📖
termen

Biais de maximisation

Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.

📖
termen

Décomposition de l'erreur

Analyse mathématique montrant comment l'erreur dans l'apprentissage par renforcement se décompose en biais et variance, Double Q-learning réduisant spécifiquement la composante de biais de maximisation.

📖
termen

Apprentissage hors-politique

Paradigme où l'agent apprend la politique optimale tout en suivant une politique de comportement différente, caractéristique fondamentale du Q-learning et de sa variante Double Q-learning.

📖
termen

Valeur d'action estimée

Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.

📖
termen

Stabilité de convergence

Propriété améliorée dans Double Q-learning par rapport au Q-learning classique, assurant une convergence plus fiable vers la politique optimale en présence de bruit et de stochasticité.

📖
termen

Erreur de TD double

Variante de l'erreur de différence temporelle utilisée dans Double Q-learning, combinant les estimations des deux fonctions Q pour calculer une cible d'apprentissage non biaisée.

📖
termen

Optimisme spurious

Phénomène où le Q-learning développe une confiance excessive dans des actions sous-optimales dû au biais de surestimation, phénomène atténué par Double Q-learning grâce à l'évaluation croisée.

📖
termen

Ratio signal-bruit

Métrique améliorée dans Double Q-learning où la réduction du biais de maximisation permet un meilleur rapport entre le vrai signal d'apprentissage et le bruit stochastique des estimations.

📖
termen

Expérience de replay

Technique combinant le buffer d'expériences avec Double Q-learning, où les transitions passées sont réutilisées avec alternance entre les deux estimateurs pour un apprentissage plus efficient.

📖
termen

Variance accrue

Trade-off dans Double Q-learning où la réduction du biais s'accompagne d'une augmentation potentielle de la variance des estimations, nécessitant un ajustement careful des hyperparamètres.

📖
termen

Évaluation croisée

Principe fondamental de Double Q-learning où chaque estimateur Q évalue les actions sélectionnées par l'autre, créant une validation croisée qui prévient la surestimation systématique.

📖
termen

Factorisation de l'espace d'actions

Application avancée de Double Q-learning où les deux estimateurs se spécialisent dans différents sous-ensembles d'actions, optimisant la réduction du biais dans des espaces d'action complexes.

🔍

Geen resultaten gevonden