AI 용어집
인공지능 완전 사전
Collecte de Données On-Policy
Processus de collecte d'exemples où l'agent suit sa politique actuelle, permettant d'identifier les divergences avec le comportement de l'expert pour un réajustement ciblé.
Dérive de Distribution (Distributional Drift)
Phénomène où la politique de l'agent s'éloigne de la distribution des états visités par l'expert, rendant les données initiales d'imitation moins pertinentes pour l'apprentissage.
Agrégation Itérative de Données
Méthodologie consistant à fusionner successivement les nouvelles données d'expert collectées avec l'ensemble de données existant pour enrichir l'apprentissage de la politique.
Mixage de Données (Data Mixing)
Stratégie de combinaison des données d'imitation initiales et des données collectées via DAgger pour créer un ensemble d'entraînement plus robuste et représentatif.
Boucle de Rétroaction de l'Expert
Cycle interactif où l'expert fournit des actions correctives sur les états visités par l'agent, alimentant directement l'amélioration de la politique à chaque itération.
Stabilité de la Politique
Mesure de la cohérence du comportement de l'agent face à de légères variations dans les données d'entraînement, un objectif clé de l'algorithme DAgger.
Erreur de Compacité (Compaction Error)
Biais introduit lorsque l'ensemble de données agrégé ne capture pas adéquatement la diversité des états visités par la politique en cours d'apprentissage.
Horizon de Collecte
Nombre d'étapes ou d'épisodes sur lesquels l'agent exécute sa politique actuelle avant de solliciter à nouveau l'intervention de l'expert pour collecter des données.
Apprentissage par Renforcement Imitatif (IRL)
Paradigme d'apprentissage où un agent apprend une tâche en imitant un expert, souvent combiné avec des techniques de renforcement pour généraliser au-delà des données démontrées.
Biais de Comportement (Behavioral Cloning Bias)
Limitation inhérente de l'imitation statique où l'agent ne peut pas récupérer des erreurs non présentes dans le jeu de données initial, problème que DAgger vise à résoudre.
Politique de Comportement (Behavior Policy)
Stratégie suivie par l'agent lors de la phase de collecte de données, qui est ensuite utilisée pour guider l'expert vers les états les plus critiques à corriger.
Fonction de Perte Surrogate
Fonction objectif utilisée pour entraîner le modèle d'imitation, typiquement une erreur de classification ou de régression entre les actions de l'agent et celles de l'expert.
Généralisation de la Politique
Capacité de la politique apprise à performer de manière fiable sur des états non vus pendant la collecte de données, améliorée par la diversité introduite par DAgger.
Coût de Collecte de Données
Ressource temporelle ou computationnelle requise pour que l'expert fournisse des annotations, un facteur clé dans l'efficacité pratique des algorithmes comme DAgger.
Réduction de la Variance
Effet de l'agrégation de données sur la stabilisation de l'estimation du gradient, conduisant à une convergence plus rapide et plus fiable de la politique.
Espace d'Actions de l'Expert
Ensemble des actions possibles que l'expert peut démontrer, définissant les limites de ce que l'agent peut apprendre à imiter via l'algorithme DAgger.
Trajectoire Corrigée
Séquence d'états et d'actions où l'intervention de l'expert remplace l'action de l'agent, créant un exemple d'apprentissage de haute qualité pour la politique.
Apprentissage hors-ligne (Offline Learning)
Phase d'entraînement du modèle sur l'ensemble de données agrégé, sans interaction directe avec l'environnement, caractéristique de la méthode DAgger.
Convergence de la Politique
Point où les itérations successives de DAgger n'améliorent plus significativement les performances de la politique, indiquant que l'ensemble de données est suffisamment complet.