Aprendizagem por Reforço Distribucional
Aproximação do Valor Esperado
Método tradicional em RL que se concentra unicamente na estimativa da esperança matemática dos retornos futuros. Esta abordagem negligencia a variância e os momentos superiores da distribuição dos retornos.
← Voltar