Double Q-learning
Fatoração do espaço de ações
Aplicação avançada do Double Q-learning onde os dois estimadores se especializam em diferentes subconjuntos de ações, otimizando a redução do viés em espaços de ação complexos.
← Voltar