Batch Constrained Q-learning (BCQ)
Estimativa de Incerteza
Quantificação da incerteza associada às estimativas de valor de ações não observadas no lote. Uma estimativa precisa da incerteza permite penalizar ações fora da distribuição e melhorar a robustez.
← Voltar