Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
DAgger (Dataset Aggregation)
Algorithme d'apprentissage par imitation qui collecte itérativement des données en interrogeant un expert sur les états visités par la politique actuelle. Cette approche réduit le décalage entre la distribution d'entraînement et la distribution de déploiement.
Agrégation de données
Processus de collecte et de combinaison de multiples ensembles de données provenant de différentes sources ou itérations d'apprentissage. Dans DAgger, cela permet d'améliorer progressivement la robustesse de la politique apprise.
Collecte itérative
Méthodologie de rassemblement de données effectuée en plusieurs cycles successifs, chaque cycle utilisant les informations des cycles précédents. Cette approche permet d'affiner continuellement la politique et d'explorer de nouveaux états.
Politique comportementale
Stratégie ou distribution de probabilités sur les actions que l'agent suit lors de la collecte de données dans DAgger. Elle évolue au fil des itérations pour s'approcher de la politique optimale.
Distribution d'états
Ensemble probabiliste des états que l'agent est susceptible de viser pendant son exécution. DAgger cherche à aligner cette distribution avec celle rencontrée en déploiement réel.
Biais de distribution
Différence entre la distribution des données d'entraînement et celle rencontrée lors du déploiement en production. DAgger réduit ce biais en collectant des données sur les états réellement visités par la politique actuelle.
Correction d'erreur
Processus par lequel un expert fournit les actions correctes lorsque la politique actuelle de l'agent commet des erreurs. Ces corrections servent de nouvelles données d'entraînement pour améliorer la politique.
Interrogation expert
Mécanisme de sollicitation des actions optimales d'un expert humain ou système pour des états spécifiques visités par l'agent. Ces interrogations sont essentielles pour générer des données d'entraînement de haute qualité.
État visité
Configuration ou situation spécifique de l'environnement que l'agent atteint lors de l'exécution de sa politique actuelle. Ces états deviennent des points d'interrogation pour l'expert dans DAgger.
Politique actuelle
Version courante de la stratégie de décision de l'agent qui évolue à chaque itération de l'algorithme DAgger. Elle est utilisée pour explorer l'environnement et identifier les états nécessitant des corrections expertes.
Agrégation adaptative
Variante de DAgger qui ajuste dynamiquement la proportion d'actions expertes versus actions de la politique actuelle. Cette adaptation permet d'équilibrer exploration et exploitation durant l'apprentissage.
Boucle de rétroaction
Cycle continu où les performances de la politique actuelle génèrent de nouveaux états, qui à leur tour nécessitent des corrections expertes. Cette boucle itérative est le mécanisme fondamental d'amélioration dans DAgger.
Correction en ligne
Processus d'intervention experte qui se produit pendant l'exécution en temps réel de la politique de l'agent. Ces corrections immédiates permettent d'éviter la propagation d'erreurs dans les trajectoires.
Distribution de trajectoires
Ensemble des séquences d'états et d'actions que l'agent génère en suivant sa politique actuelle. DAgger vise à aligner cette distribution avec celle produite par la politique experte optimale.
Politique cible
Politique optimale que l'agent cherche à imiter, généralement représentée par les démonstrations de l'expert. L'objectif de DAgger est de faire converger la politique apprise vers cette politique cible.
Agrégation progressive
Stratégie d'accumulation de données où chaque nouvelle itération ajoute des informations complémentaires aux données existantes. Cette approche garantit une couverture croissante de l'espace d'états pertinent.
Erreur de compacité
Différence de performance entre la politique apprise et la politique experte due à des limitations de représentation. DAgger minimise cette erreur en collectant des données sur la distribution réelle d'états.