Double Q-learning
Variância aumentada
Compensação (trade-off) no Double Q-learning onde a redução do viés vem acompanhada de um aumento potencial da variância das estimativas, exigindo um ajuste cuidadoso dos hiperparâmetros.
← Voltar