Agrégation de Données DAgger

📖

termes

DAgger (Dataset Aggregation)

Algorithme d'apprentissage par imitation qui collecte itérativement des données en interrogeant un expert sur les états visités par la politique actuelle. Cette approche réduit le décalage entre la distribution d'entraînement et la distribution de déploiement.

📖

termes

Agrégation de données

Processus de collecte et de combinaison de multiples ensembles de données provenant de différentes sources ou itérations d'apprentissage. Dans DAgger, cela permet d'améliorer progressivement la robustesse de la politique apprise.

📖

termes

Collecte itérative

Méthodologie de rassemblement de données effectuée en plusieurs cycles successifs, chaque cycle utilisant les informations des cycles précédents. Cette approche permet d'affiner continuellement la politique et d'explorer de nouveaux états.

📖

termes

Politique comportementale

Stratégie ou distribution de probabilités sur les actions que l'agent suit lors de la collecte de données dans DAgger. Elle évolue au fil des itérations pour s'approcher de la politique optimale.

📖

termes

Distribution d'états

Ensemble probabiliste des états que l'agent est susceptible de viser pendant son exécution. DAgger cherche à aligner cette distribution avec celle rencontrée en déploiement réel.

📖

termes

Biais de distribution

Différence entre la distribution des données d'entraînement et celle rencontrée lors du déploiement en production. DAgger réduit ce biais en collectant des données sur les états réellement visités par la politique actuelle.

📖

termes

Correction d'erreur

Processus par lequel un expert fournit les actions correctes lorsque la politique actuelle de l'agent commet des erreurs. Ces corrections servent de nouvelles données d'entraînement pour améliorer la politique.

📖

termes

Interrogation expert

Mécanisme de sollicitation des actions optimales d'un expert humain ou système pour des états spécifiques visités par l'agent. Ces interrogations sont essentielles pour générer des données d'entraînement de haute qualité.

📖

termes

État visité

Configuration ou situation spécifique de l'environnement que l'agent atteint lors de l'exécution de sa politique actuelle. Ces états deviennent des points d'interrogation pour l'expert dans DAgger.

📖

termes

Politique actuelle

Version courante de la stratégie de décision de l'agent qui évolue à chaque itération de l'algorithme DAgger. Elle est utilisée pour explorer l'environnement et identifier les états nécessitant des corrections expertes.

📖

termes

Agrégation adaptative

Variante de DAgger qui ajuste dynamiquement la proportion d'actions expertes versus actions de la politique actuelle. Cette adaptation permet d'équilibrer exploration et exploitation durant l'apprentissage.

📖

termes

Boucle de rétroaction

Cycle continu où les performances de la politique actuelle génèrent de nouveaux états, qui à leur tour nécessitent des corrections expertes. Cette boucle itérative est le mécanisme fondamental d'amélioration dans DAgger.

📖

termes

Correction en ligne

Processus d'intervention experte qui se produit pendant l'exécution en temps réel de la politique de l'agent. Ces corrections immédiates permettent d'éviter la propagation d'erreurs dans les trajectoires.

📖

termes

Distribution de trajectoires

Ensemble des séquences d'états et d'actions que l'agent génère en suivant sa politique actuelle. DAgger vise à aligner cette distribution avec celle produite par la politique experte optimale.

📖

termes

Politique cible

Politique optimale que l'agent cherche à imiter, généralement représentée par les démonstrations de l'expert. L'objectif de DAgger est de faire converger la politique apprise vers cette politique cible.

📖

termes

Agrégation progressive

Stratégie d'accumulation de données où chaque nouvelle itération ajoute des informations complémentaires aux données existantes. Cette approche garantit une couverture croissante de l'espace d'états pertinent.

📖

termes

Erreur de compacité

Différence de performance entre la politique apprise et la politique experte due à des limitations de représentation. DAgger minimise cette erreur en collectant des données sur la distribution réelle d'états.

Glossaire IA

DAgger (Dataset Aggregation)

Agrégation de données

Collecte itérative

Politique comportementale

Distribution d'états

Biais de distribution

Correction d'erreur

Interrogation expert

État visité

Politique actuelle

Agrégation adaptative

Boucle de rétroaction

Correction en ligne

Distribution de trajectoires

Politique cible

Agrégation progressive

Erreur de compacité

Aucun résultat trouvé