Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Conservative Q-Learning (CQL)
Méthode d'apprentissage par renforcement offline qui pénalise activement les valeurs Q surestimées pour maintenir la politique proche de la distribution des données comportementales et éviter la divergence.
Distribution de données offline
Ensemble de données fixes et prédéfinies collectées à partir d'une politique comportementale, servant de seule source d'information pour l'entraînement en offline RL.
Pénalité conservatrice
Terme régularisateur ajouté à la fonction de perte pour pénaliser les valeurs Q élevées pour les paires état-action absentes des données d'entraînement, prévenant ainsi la surévaluation.
Surévaluation des valeurs Q
Problème inhérent en offline RL où les valeurs Q sont artificiellement augmentées pour des actions non observées, menant à des politiques suboptimales et instables.
Politique conservatrice
Stratégie d'action qui reste intentionnellement proche des comportements observés dans le dataset, minimisant le risque de divergence due à l'extrapolation sur des données non vues.
Correction de distribution
Mécanisme dans CQL qui ajuste les estimations Q pour corriger le décalage entre la distribution comportementale et la distribution de la politique cible.
Écart de politique
Mesure de divergence entre la politique apprise et la politique comportementale, crucial pour garantir la stabilité en apprentissage par renforcement offline.
Fonction de perte CQL
Fonction objectif combinant la perte Q-Learning standard avec un terme conservateur qui minimise les valeurs Q pour les actions hors-distribution, formant log(Σexp(Q(s,a))) - Q(s,a').
Ratio d'importance d'échantillonnage
Coefficient pondérant les transitions selon leur probabilité d'occurrence sous la politique cible par rapport à la politique comportementale, essentiel pour corriger le biais.
Décalage distributionnel
Différence fondamentale entre la distribution des données disponibles et celle nécessaire pour évaluer précisément la politique apprise, principal défi de l'offline RL.
Stabilisation de l'apprentissage
Objectif de CQL visant à garantir la convergence de l'algorithme en évitant les oscillations et divergences causées par l'extrapolation sur des données limitées.
Garde-fou conservateur
Mécanisme de sécurité intégré dans CQL limitant l'optimisation des valeurs Q pour les paires état-action peu fréquentes ou absentes du dataset d'entraînement.
Mise à jour Q-conservatrice
Processus itératif modifiant les valeurs Q en pénalisant les surestimations tout en préservant les estimations fiables basées sur les données observées.
Erreur d'extrapolation
Inexactitude introduite lorsqu'un modèle fait des prédictions pour des états ou actions non représentés dans le dataset d'entraînement, problème majeur en offline RL.
Critique conservatrice
Composant CQL évaluant les actions avec une biais conservateur, assignant des scores plus bas aux actions potentiellement surévaluées par manque de données.
Espace d'action contraint
Sous-ensemble des actions possibles limitées à celles observées dans le dataset, réduisant le risque de politiques exploitant des artefacts de l'extrapolation.
Échantillonnage de comportement
Processus de collecte des transitions (état, action, récompense, état suivant) selon une politique comportementale fixe, constituant le dataset offline.
Divergence de politique
Phénomène où la politique apprise s'écarte dangereusement de la distribution des données, menant à des performances dégradées ou à l'effondrement total de l'apprentissage.