Implicit Q-Learning (IQL)

📖

termes

Opérateur Max Implicite

Technique mathématique dans IQL qui évite le calcul direct du maximum sur les actions en utilisant des bornes supérieures conservatrices basées sur la distribution de comportement.

📖

termes

Distribution de Comportement

Distribution de probabilité des actions dans le jeu de données offline qui représente la politique ayant généré les données d'entraînement utilisées par IQL.

📖

termes

Fonction de Perte Conservatrice

Objectif mathématique dans IQL qui pénalise les sur-estimations des Q-values en dehors de la distribution de comportement pour garantir la stabilité de l'apprentissage.

📖

termes

Estimation de Q-Cible Implicite

Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.

📖

termes

Découplage Valeur-Politique

Principe fondamental d'IQL séparant l'apprentissage de la fonction de valeur de l'extraction de politique pour éviter les biais d'optimisation dans le cadre offline.

📖

termes

Période d'Entraînement Offline

Phase d'apprentissage où IQL utilise uniquement un ensemble fixe de données sans interaction avec l'environnement, garantissant la sécurité et l'efficacité computationnelle.

📖

termes

Échantillonnage d'Importance Pondérée

Technique utilisée dans IQL pour corriger le décalage entre la distribution de comportement et la politique cible en pondérant les échantillons selon leur pertinence.

📖

termes

Optimisation Batch-Constrained

Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.

📖

termes

Biais de Distribution Offline

Défi majeur dans IQL où les données limitées et biaisées peuvent conduire à des estimations incorrectes si non correctement gérées par des mécanismes conservateurs.

📖

termes

Fonction d'Avantage Implicite

Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.

📖

termes

Régularisation de Comportement

Mécanisme dans IQL qui pénalise les déviations significatives par rapport à la distribution de comportement pour maintenir la stabilité et éviter les actions risquées.

📖

termes

Critère de Terminaison Implicite

Méthode dans IQL pour déterminer la convergence de l'apprentissage basée sur la stabilité des estimations Q plutôt que sur des métriques explicites de performance.

📖

termes

Expérience de Démonstration

Ensemble de données pré-collectées utilisées par IQL comme unique source d'apprentissage, typiquement provenant d'experts ou de politiques existantes.

Glossaire IA

Opérateur Max Implicite

Distribution de Comportement

Fonction de Perte Conservatrice

Estimation de Q-Cible Implicite

Découplage Valeur-Politique

Période d'Entraînement Offline

Échantillonnage d'Importance Pondérée

Optimisation Batch-Constrained

Biais de Distribution Offline

Fonction d'Avantage Implicite

Régularisation de Comportement

Critère de Terminaison Implicite

Expérience de Démonstration

Aucun résultat trouvé