Métodos de Gradiente de Política
Estimativa Generalizada de Vantagem (GAE)
Método de estimativa de vantagem que combina viés e variância através de uma média ponderada de estimadores de múltiplos passos, oferecendo um compromisso ótimo para o aprendizado.
← Voltar