Double Q-learning
Avaliação cruzada
Princípio fundamental do Double Q-learning no qual cada estimador Q avalia as ações selecionadas pelo outro, criando uma validação cruzada que evita a superestimação sistemática.
← Voltar