Batch Constrained Q-learning (BCQ)
Perturbation Model
Componente do BCQ que gera variações em torno das ações do comportamento para explorar localmente o espaço de ações. Este modelo adiciona um ruído controlado às ações observadas, garantindo a sua viabilidade.
← Voltar