Imitation par Observation

📖

termes

Inverse Reinforcement Learning

Méthode qui consiste à déduire la fonction de récompense d'un expert à partir de ses trajectoires optimales, permettant ensuite à l'agent d'apprendre une politique optimale.

📖

termes

State-only Imitation Learning

Paradigme d'apprentissage où l'agent n'a accès qu'aux états visités par l'expert sans connaissance des actions prises, nécessitant des approches spécifiques pour inférer les comportements.

📖

termes

Trajectory Matching

Approche qui minimise la divergence entre les distributions de trajectoires générées par l'agent et celles de l'expert, souvent utilisée dans l'apprentissage sans accès aux actions.

📖

termes

GAIL

Framework combinant l'apprentissage par imitation et les réseaux génératifs adversariaux, où un discriminateur distingue les trajectoires de l'expert de celles de l'agent.

📖

termes

Dataset Aggregation

Algorithme itératif qui collecte de nouvelles données d'expert en fonction des erreurs de l'agent actuel, agrégeant progressivement un ensemble de données plus robuste.

📖

termes

Forward-Forward Algorithm

Méthode d'apprentissage non supervisé qui prédit les états futurs à partir des états actuels sans nécessiter de données d'action, utilisée dans l'imitation par observation.

📖

termes

Observation-based Learning

Processus d'apprentissage où l'agent acquiert des compétences en observant uniquement les états environnementaux et les résultats, sans accès direct aux actions de l'expert.

📖

termes

State Distribution Matching

Technique visant à aligner la distribution des états visités par l'agent avec celle de l'expert, utilisée lorsque les actions ne sont pas observables.

📖

termes

No-action Imitation

Forme d'apprentissage par imitation où l'agent doit apprendre à reproduire le comportement expert sans aucune information sur les actions entreprenées.

📖

termes

Passive Learning

Mode d'apprentissage où l'agent observe passivement les démonstrations sans interaction active avec l'environnement, typique de l'imitation par observation.

📖

termes

Expert Demonstration

Ensemble de trajectoires ou d'états fournis par un expert servant de référence pour l'apprentissage par imitation, cruciales dans les approches sans accès aux actions.

📖

termes

State-Action Distribution

Distribution jointe des états et actions que l'agent cherche à approximer, souvent inférée à partir de la seule distribution d'états dans l'imitation par observation.

📖

termes

Trajectory-based Learning

Approche d'apprentissage qui se concentre sur la reproduction de trajectoires complètes plutôt que sur des décisions individuelles état-action, adaptée à l'observation sans actions.

📖

termes

Dynamics Model

Modèle apprenant la transition entre états consécutifs dans les démonstrations expertes, essentiel pour inférer les actions lorsque celles-ci ne sont pas observées.

📖

termes

Occupancy Measure

Mesure statistique quantifiant la fréquence de visiteation de chaque état-action, adaptée aux contextes où seules les visites d'états sont observables.

Glossaire IA

Inverse Reinforcement Learning

State-only Imitation Learning

Trajectory Matching

GAIL

Dataset Aggregation

Forward-Forward Algorithm

Observation-based Learning

State Distribution Matching

No-action Imitation

Passive Learning

Expert Demonstration

State-Action Distribution

Trajectory-based Learning

Dynamics Model

Occupancy Measure

Aucun résultat trouvé