Apprentissage par Imitation Hors Ligne

📖

termes

Apprentissage par imitation hors ligne

Paradigme d'apprentissage où l'agent apprend à imiter des comportements expert sans interaction avec l'environnement, en utilisant uniquement un ensemble fixe de démonstrations pré-enregistrées.

📖

termes

Ensemble de démonstrations

Collection statique de trajectoires ou d'exemples d'actions expertes utilisées comme unique source d'information pour l'apprentissage par imitation hors ligne.

📖

termes

Apprentissage par renforcement hors ligne

Approche d'apprentissage par renforcement qui utilise uniquement un ensemble de données préexistant sans interaction en temps réel avec l'environnement.

📖

termes

Échantillonnage d'importance

Technique statistique utilisée pour corriger le décalage entre la distribution des données et la politique cible en pondérant les échantillons selon leur probabilité relative.

📖

termes

Conservation de la distribution

Contrainte imposée à la politique apprise pour rester proche de la distribution des démonstrations, évitant ainsi les extrapolations risquées dans des régions inconnues.

📖

termes

Trajectoire hors ligne

Séquence complète d'états, d'actions et de récompenses enregistrée depuis une politique experte, constituant l'unité de base des données d'apprentissage.

📖

termes

Politique experte

Stratégie de référence ayant généré les démonstrations, servant de modèle à imiter et définissant le comportement optimal souhaité.

📖

termes

Estimateur hors ligne

Algorithme d'estimation de valeur ou de politique conçu spécifiquement pour fonctionner avec des données statiques sans nécessiter d'interaction avec l'environnement.

📖

termes

Correction de biais conservatrice

Approche de correction du biais qui privilégie la sécurité en pénalisant les actions sous-représentées dans les données de démonstration.

📖

termes

Apprentissage par imitation avec contraintes

Méthode intégrant des contraintes explicites sur la divergence entre la politique apprise et la distribution des données pour garantir la stabilité.

📖

termes

Ensemble de transitions

Structure de données stockant des tuples (état, action, état suivant, récompense) extraits des trajectoires expertes pour l'entraînement hors ligne.

📖

termes

Pondération d'importance adaptative

Technologie de pondération dynamique qui ajuste les poids d'importance en fonction de la confiance dans la qualité des données dans différentes régions de l'espace d'états.

📖

termes

Erreur de couverture

Mesure quantifiant l'inadéquation entre le support de la distribution des données et celui de la politique optimale dans l'apprentissage hors ligne.

Glossaire IA