AI 용어집
인공지능 완전 사전
Behavioral Cloning
Apprentissage supervisé où l'agent imite directement les actions d'experts à partir de démonstrations.
Inverse Reinforcement Learning
Infère la fonction de récompense optimale à partir des comportements d'experts observés.
Generative Adversarial Imitation Learning
Utilise des réseaux antagonistes pour discriminer entre les actions de l'agent et celles de l'expert.
Dataset Aggregation (DAgger)
Méthode itérative collectant de nouvelles données d'expert sur les trajectoires de l'agent pour améliorer la politique.
Reward Learning from Human Feedback
Apprend les récompenses à partir d'évaluations comparatives ou qualitatives fournies par des humains.
Offline Reinforcement Learning
Apprentissage par renforcement utilisant uniquement des datasets fixes sans interaction avec l'environnement.
Model-Based Imitation Learning
Builds a dynamic model of the environment to accelerate imitation learning.
Meta-Imitation Learning
Learns to quickly imitate new tasks with only a few demonstrations.
Hierarchical Imitation Learning
Decomposes complex behaviors into a hierarchy of simpler subtasks to imiter.
Multi-Modal Imitation Learning
Handles multiple valid solutions for the same task by learning a distribution over actions.
Self-Imitation Learning
The agent imitates its own successful past actions to improve its current policy.
Goal-Conditioned Imitation Learning
Learns a policy conditioned by specific objectives to accomplish various tasks.
Adversarial Inverse Reinforcement Learning
Combine IRL with adversarial learning for a more robust reward estimation.
Imitation Learning with Partial Observations
Apprentissage par imitation dans des environnements où l'agent n'observe qu'une partie de l'état.
Curriculum Imitation Learning
Progressive sequence of demonstrations of increasing difficulty to facilitate learning.