Batch Constrained Q-learning (BCQ)
Batch Constrained Q-learning (BCQ)
Algoritmo de aprendizagem por reforço offline que restringe as políticas a permanecerem próximas das ações observadas no conjunto de dados de treinamento para evitar erros de extrapolação. O BCQ utiliza um modelo gerador de ações para produzir ações semelhantes às do lote, enquanto explora ligeiras variações.
← Voltar