Batch Constrained Q-learning (BCQ)
Behavior Cloning
Technique d'apprentissage supervisé qui imite directement les actions d'un expert à partir de données démonstratives sans utiliser de signaux de récompense. Bien que simple, cette approche peut souffrir d'accumulation d'erreurs en cascade lors du déploiement.
← رجوع