Conservative Q-Learning (CQL)

📖

termes

Conservative Q-Learning (CQL)

Méthode d'apprentissage par renforcement offline qui pénalise activement les valeurs Q surestimées pour maintenir la politique proche de la distribution des données comportementales et éviter la divergence.

📖

termes

Distribution de données offline

Ensemble de données fixes et prédéfinies collectées à partir d'une politique comportementale, servant de seule source d'information pour l'entraînement en offline RL.

📖

termes

Pénalité conservatrice

Terme régularisateur ajouté à la fonction de perte pour pénaliser les valeurs Q élevées pour les paires état-action absentes des données d'entraînement, prévenant ainsi la surévaluation.

📖

termes

Surévaluation des valeurs Q

Problème inhérent en offline RL où les valeurs Q sont artificiellement augmentées pour des actions non observées, menant à des politiques suboptimales et instables.

📖

termes

Politique conservatrice

Stratégie d'action qui reste intentionnellement proche des comportements observés dans le dataset, minimisant le risque de divergence due à l'extrapolation sur des données non vues.

📖

termes

Correction de distribution

Mécanisme dans CQL qui ajuste les estimations Q pour corriger le décalage entre la distribution comportementale et la distribution de la politique cible.

📖

termes

Écart de politique

Mesure de divergence entre la politique apprise et la politique comportementale, crucial pour garantir la stabilité en apprentissage par renforcement offline.

📖

termes

Fonction de perte CQL

Fonction objectif combinant la perte Q-Learning standard avec un terme conservateur qui minimise les valeurs Q pour les actions hors-distribution, formant log(Σexp(Q(s,a))) - Q(s,a').

📖

termes

Ratio d'importance d'échantillonnage

Coefficient pondérant les transitions selon leur probabilité d'occurrence sous la politique cible par rapport à la politique comportementale, essentiel pour corriger le biais.

📖

termes

Décalage distributionnel

Différence fondamentale entre la distribution des données disponibles et celle nécessaire pour évaluer précisément la politique apprise, principal défi de l'offline RL.

📖

termes

Stabilisation de l'apprentissage

Objectif de CQL visant à garantir la convergence de l'algorithme en évitant les oscillations et divergences causées par l'extrapolation sur des données limitées.

📖

termes

Garde-fou conservateur

Mécanisme de sécurité intégré dans CQL limitant l'optimisation des valeurs Q pour les paires état-action peu fréquentes ou absentes du dataset d'entraînement.

📖

termes

Mise à jour Q-conservatrice

Processus itératif modifiant les valeurs Q en pénalisant les surestimations tout en préservant les estimations fiables basées sur les données observées.

📖

termes

Erreur d'extrapolation

Inexactitude introduite lorsqu'un modèle fait des prédictions pour des états ou actions non représentés dans le dataset d'entraînement, problème majeur en offline RL.

📖

termes

Critique conservatrice

Composant CQL évaluant les actions avec une biais conservateur, assignant des scores plus bas aux actions potentiellement surévaluées par manque de données.

📖

termes

Espace d'action contraint

Sous-ensemble des actions possibles limitées à celles observées dans le dataset, réduisant le risque de politiques exploitant des artefacts de l'extrapolation.

📖

termes

Échantillonnage de comportement

Processus de collecte des transitions (état, action, récompense, état suivant) selon une politique comportementale fixe, constituant le dataset offline.

📖

termes

Divergence de politique

Phénomène où la politique apprise s'écarte dangereusement de la distribution des données, menant à des performances dégradées ou à l'effondrement total de l'apprentissage.

Glossaire IA