Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Inverse Reinforcement Learning
Méthode qui consiste à déduire la fonction de récompense d'un expert à partir de ses trajectoires optimales, permettant ensuite à l'agent d'apprendre une politique optimale.
State-only Imitation Learning
Paradigme d'apprentissage où l'agent n'a accès qu'aux états visités par l'expert sans connaissance des actions prises, nécessitant des approches spécifiques pour inférer les comportements.
Trajectory Matching
Approche qui minimise la divergence entre les distributions de trajectoires générées par l'agent et celles de l'expert, souvent utilisée dans l'apprentissage sans accès aux actions.
GAIL
Framework combinant l'apprentissage par imitation et les réseaux génératifs adversariaux, où un discriminateur distingue les trajectoires de l'expert de celles de l'agent.
Dataset Aggregation
Algorithme itératif qui collecte de nouvelles données d'expert en fonction des erreurs de l'agent actuel, agrégeant progressivement un ensemble de données plus robuste.
Forward-Forward Algorithm
Méthode d'apprentissage non supervisé qui prédit les états futurs à partir des états actuels sans nécessiter de données d'action, utilisée dans l'imitation par observation.
Observation-based Learning
Processus d'apprentissage où l'agent acquiert des compétences en observant uniquement les états environnementaux et les résultats, sans accès direct aux actions de l'expert.
State Distribution Matching
Technique visant à aligner la distribution des états visités par l'agent avec celle de l'expert, utilisée lorsque les actions ne sont pas observables.
No-action Imitation
Forme d'apprentissage par imitation où l'agent doit apprendre à reproduire le comportement expert sans aucune information sur les actions entreprenées.
Passive Learning
Mode d'apprentissage où l'agent observe passivement les démonstrations sans interaction active avec l'environnement, typique de l'imitation par observation.
Expert Demonstration
Ensemble de trajectoires ou d'états fournis par un expert servant de référence pour l'apprentissage par imitation, cruciales dans les approches sans accès aux actions.
State-Action Distribution
Distribution jointe des états et actions que l'agent cherche à approximer, souvent inférée à partir de la seule distribution d'états dans l'imitation par observation.
Trajectory-based Learning
Approche d'apprentissage qui se concentre sur la reproduction de trajectoires complètes plutôt que sur des décisions individuelles état-action, adaptée à l'observation sans actions.
Dynamics Model
Modèle apprenant la transition entre états consécutifs dans les démonstrations expertes, essentiel pour inférer les actions lorsque celles-ci ne sont pas observées.
Occupancy Measure
Mesure statistique quantifiant la fréquence de visiteation de chaque état-action, adaptée aux contextes où seules les visites d'états sont observables.