Aprendizagem por Reforço Offline

📂

subcategorias

Conservative Q-Learning (CQL)

Método que penaliza valores Q superestimados para manter a política próxima da distribuição dos dados.

18 termos

📂

subcategorias

Batch Constrained Q-learning (BCQ)

Abordagem que restringe as ações a permanecerem próximas às observadas no conjunto de dados para evitar o desvio de distribuição.

17 termos

📂

subcategorias

Decision Transformer

Arquitetura transformer que trata a aprendizagem por reforço offline como um problema de sequência a sequência.

11 termos

📂

subcategorias

Aprendizagem Q Implícita (IQL)

Método que aprende implicitamente a função Q sem a necessidade de um operador max explícito.

13 termos

📂

subcategorias

RL Offline Baseado em Modelo

Abordagem que utiliza modelos aprendidos do ambiente para melhorar a amostragem fora da distribuição.

10 termos

📂

subcategorias

Transferência de Aprendizagem Offline para Online

Técnicas para transferir eficientemente as aprendizagens offline para configurações online.

6 termos

📂

subcategorias

RL Offline Distributionnel

Métodos que modélisent a distribuição completa dos retornos em vez de apenas sua esperança matemática.

13 termos

📂

subcategorias