Batch Constrained Q-learning (BCQ)
Perturbation Model
Composant de BCQ qui génère des variations autour des actions du comportement pour explorer localement l'espace d'actions. Ce modèle ajoute un bruit contrôlé aux actions observées tout en garantissant leur faisabilité.
← رجوع