Batch Constrained Q-learning (BCQ)
Offline Reinforcement Learning
Paradigme d'apprentissage où l'agent apprend exclusivement à partir d'un ensemble fixe de données collectées préalablement, sans interaction avec l'environnement. Cette approche est essentielle lorsque l'exploration en temps réel est coûteuse ou dangereuse.
← رجوع