Glosario IA
El diccionario completo de la Inteligencia Artificial
Opérateur Max Implicite
Technique mathématique dans IQL qui évite le calcul direct du maximum sur les actions en utilisant des bornes supérieures conservatrices basées sur la distribution de comportement.
Distribution de Comportement
Distribution de probabilité des actions dans le jeu de données offline qui représente la politique ayant généré les données d'entraînement utilisées par IQL.
Fonction de Perte Conservatrice
Objectif mathématique dans IQL qui pénalise les sur-estimations des Q-values en dehors de la distribution de comportement pour garantir la stabilité de l'apprentissage.
Estimation de Q-Cible Implicite
Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.
Découplage Valeur-Politique
Principe fondamental d'IQL séparant l'apprentissage de la fonction de valeur de l'extraction de politique pour éviter les biais d'optimisation dans le cadre offline.
Période d'Entraînement Offline
Phase d'apprentissage où IQL utilise uniquement un ensemble fixe de données sans interaction avec l'environnement, garantissant la sécurité et l'efficacité computationnelle.
Échantillonnage d'Importance Pondérée
Technique utilisée dans IQL pour corriger le décalage entre la distribution de comportement et la politique cible en pondérant les échantillons selon leur pertinence.
Optimisation Batch-Constrained
Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.
Biais de Distribution Offline
Défi majeur dans IQL où les données limitées et biaisées peuvent conduire à des estimations incorrectes si non correctement gérées par des mécanismes conservateurs.
Fonction d'Avantage Implicite
Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.
Régularisation de Comportement
Mécanisme dans IQL qui pénalise les déviations significatives par rapport à la distribution de comportement pour maintenir la stabilité et éviter les actions risquées.
Critère de Terminaison Implicite
Méthode dans IQL pour déterminer la convergence de l'apprentissage basée sur la stabilité des estimations Q plutôt que sur des métriques explicites de performance.
Expérience de Démonstration
Ensemble de données pré-collectées utilisées par IQL comme unique source d'apprentissage, typiquement provenant d'experts ou de politiques existantes.