Glossário IA
O dicionário completo da Inteligência Artificial
Conservative Q-Learning (CQL)
Método que penaliza valores Q superestimados para manter a política próxima da distribuição dos dados.
Batch Constrained Q-learning (BCQ)
Abordagem que restringe as ações a permanecerem próximas às observadas no conjunto de dados para evitar o desvio de distribuição.
Decision Transformer
Arquitetura transformer que trata a aprendizagem por reforço offline como um problema de sequência a sequência.
Aprendizagem Q Implícita (IQL)
Método que aprende implicitamente a função Q sem a necessidade de um operador max explícito.
RL Offline Baseado em Modelo
Abordagem que utiliza modelos aprendidos do ambiente para melhorar a amostragem fora da distribuição.
Transferência de Aprendizagem Offline para Online
Técnicas para transferir eficientemente as aprendizagens offline para configurações online.
RL Offline Distributionnel
Métodos que modélisent a distribuição completa dos retornos em vez de apenas sua esperança matemática.
Aprendizagem por Reforço Offline Segura
Abordagens que garantem a segurança na implantação de políticas aprendidas exclusivamente com dados estáticos.
RL Offline Ciente da Incerteza
Métodos que quantificam a incerteza epistêmica para evitar ações fora da distribuição.
Trajectory Transformer
Modelo transformer que gera trajetórias completas aprendendo a distribuição das sequências estado-ação-recompensa.
Regressão Ponderada por Vantagem (AWR)
Abordagem que pondera as regressões com base na vantagem para melhorar a seleção de ações fora da distribuição.
Aprendizagem por Reforço Multitarefa Offline
Paradigma de aprendizagem simultânea de múltiplas tarefas a partir de conjuntos de dados em lote partilhados.