Dataset Aggregation (DAgger)

📖

Begriffe

Collecte de Données On-Policy

Processus de collecte d'exemples où l'agent suit sa politique actuelle, permettant d'identifier les divergences avec le comportement de l'expert pour un réajustement ciblé.

📖

Begriffe

Dérive de Distribution (Distributional Drift)

Phénomène où la politique de l'agent s'éloigne de la distribution des états visités par l'expert, rendant les données initiales d'imitation moins pertinentes pour l'apprentissage.

📖

Begriffe

Agrégation Itérative de Données

Méthodologie consistant à fusionner successivement les nouvelles données d'expert collectées avec l'ensemble de données existant pour enrichir l'apprentissage de la politique.

📖

Begriffe

Mixage de Données (Data Mixing)

Stratégie de combinaison des données d'imitation initiales et des données collectées via DAgger pour créer un ensemble d'entraînement plus robuste et représentatif.

📖

Begriffe

Boucle de Rétroaction de l'Expert

Cycle interactif où l'expert fournit des actions correctives sur les états visités par l'agent, alimentant directement l'amélioration de la politique à chaque itération.

📖

Begriffe

Stabilité de la Politique

Mesure de la cohérence du comportement de l'agent face à de légères variations dans les données d'entraînement, un objectif clé de l'algorithme DAgger.

📖

Begriffe

Erreur de Compacité (Compaction Error)

Biais introduit lorsque l'ensemble de données agrégé ne capture pas adéquatement la diversité des états visités par la politique en cours d'apprentissage.

📖

Begriffe

Horizon de Collecte

Nombre d'étapes ou d'épisodes sur lesquels l'agent exécute sa politique actuelle avant de solliciter à nouveau l'intervention de l'expert pour collecter des données.

📖

Begriffe

Apprentissage par Renforcement Imitatif (IRL)

Paradigme d'apprentissage où un agent apprend une tâche en imitant un expert, souvent combiné avec des techniques de renforcement pour généraliser au-delà des données démontrées.

📖

Begriffe

Biais de Comportement (Behavioral Cloning Bias)

Limitation inhérente de l'imitation statique où l'agent ne peut pas récupérer des erreurs non présentes dans le jeu de données initial, problème que DAgger vise à résoudre.

📖

Begriffe

Politique de Comportement (Behavior Policy)

Stratégie suivie par l'agent lors de la phase de collecte de données, qui est ensuite utilisée pour guider l'expert vers les états les plus critiques à corriger.

📖

Begriffe

Fonction de Perte Surrogate

Fonction objectif utilisée pour entraîner le modèle d'imitation, typiquement une erreur de classification ou de régression entre les actions de l'agent et celles de l'expert.

📖

Begriffe

Généralisation de la Politique

Capacité de la politique apprise à performer de manière fiable sur des états non vus pendant la collecte de données, améliorée par la diversité introduite par DAgger.

📖

Begriffe

Coût de Collecte de Données

Ressource temporelle ou computationnelle requise pour que l'expert fournisse des annotations, un facteur clé dans l'efficacité pratique des algorithmes comme DAgger.

📖

Begriffe

Réduction de la Variance

Effet de l'agrégation de données sur la stabilisation de l'estimation du gradient, conduisant à une convergence plus rapide et plus fiable de la politique.

📖

Begriffe

Espace d'Actions de l'Expert

Ensemble des actions possibles que l'expert peut démontrer, définissant les limites de ce que l'agent peut apprendre à imiter via l'algorithme DAgger.

📖

Begriffe

Trajectoire Corrigée

Séquence d'états et d'actions où l'intervention de l'expert remplace l'action de l'agent, créant un exemple d'apprentissage de haute qualité pour la politique.

📖

Begriffe

Apprentissage hors-ligne (Offline Learning)

Phase d'entraînement du modèle sur l'ensemble de données agrégé, sans interaction directe avec l'environnement, caractéristique de la méthode DAgger.

📖

Begriffe

Convergence de la Politique

Point où les itérations successives de DAgger n'améliorent plus significativement les performances de la politique, indiquant que l'ensemble de données est suffisamment complet.

KI-Glossar

Collecte de Données On-Policy

Dérive de Distribution (Distributional Drift)

Agrégation Itérative de Données

Mixage de Données (Data Mixing)

Boucle de Rétroaction de l'Expert

Stabilité de la Politique

Erreur de Compacité (Compaction Error)

Horizon de Collecte

Apprentissage par Renforcement Imitatif (IRL)

Biais de Comportement (Behavioral Cloning Bias)

Politique de Comportement (Behavior Policy)

Fonction de Perte Surrogate

Généralisation de la Politique

Coût de Collecte de Données

Réduction de la Variance

Espace d'Actions de l'Expert

Trajectoire Corrigée

Apprentissage hors-ligne (Offline Learning)

Convergence de la Politique

Keine Ergebnisse gefunden