Batch Constrained Q-learning (BCQ)

📖

termos

Batch Constrained Q-learning (BCQ)

Algoritmo de aprendizagem por reforço offline que restringe as políticas a permanecerem próximas das ações observadas no conjunto de dados de treinamento para evitar erros de extrapolação. O BCQ utiliza um modelo gerador de ações para produzir ações semelhantes às do lote, enquanto explora ligeiras variações.

📖

termos

Distribution Shift

Fenômeno em que a distribuição dos estados-ações visitados pela política aprendida difere significativamente da distribuição do conjunto de dados offline. Este desvio pode levar a estimativas de valor enviesadas e a um desempenho degradado durante a implementação.

📖

termos

Offline Reinforcement Learning

Paradigma de aprendizagem onde o agente aprende exclusivamente a partir de um conjunto fixo de dados previamente coletados, sem interação com o ambiente. Esta abordagem é essencial quando a exploração em tempo real é cara ou perigosa.

📖

termos

Behavior Cloning

Técnica de aprendizagem supervisionada que imita diretamente as ações de um especialista a partir de dados demonstrativos, sem usar sinais de recompensa. Embora simples, esta abordagem pode sofrer de acumulação de erros em cascata durante a implementação.

📖

termos

Implicit Q-learning

Método que aprende a função Q de forma implícita, evitando a avaliação direta de ações fora de distribuição. O IQL formula a aprendizagem como um problema de aprendizagem por expectile para melhor gerir a incerteza nos dados offline.

📖

termos

Out-of-Distribution Actions

Ações geradas pela política aprendida que não foram ou raramente foram observadas no conjunto de dados de treinamento. Estas ações representam um risco importante no RL offline, pois os seus valores não podem ser estimados de forma fiável.

📖

termos

Policy Constraint

Mecanismo que limita a política aprendida a produzir ações semelhantes às presentes no lote de dados offline. Esta restrição pode ser implementada através de penalidades, divergências ou modelos generativos condicionais.

📖

termos

Perturbation Model

Componente do BCQ que gera variações em torno das ações do comportamento para explorar localmente o espaço de ações. Este modelo adiciona um ruído controlado às ações observadas, garantindo a sua viabilidade.

📖

termos

Estimativa da Função de Valor

Processo de estimar valores Q a partir de dados offline, considerando o viés potencial devido à ausência de exploração. Métodos modernos utilizam técnicas de subestimação conservadora para evitar a superotimização.

📖

termos

RL em Lote

Estrutura de aprendizagem por reforço onde o agente possui um lote fixo de transições e deve aprender uma política ótima sem interações adicionais. Este contexto impõe restrições específicas aos algoritmos para evitar a divergência.

📖

termos

Restrição de Segurança

Restrição imposta às políticas offline para garantir que as ações geradas permaneçam em regiões seguras do espaço de estados-ações. Essas restrições são cruciais em aplicações como robótica ou medicina.

📖

termos

Repetição de Ação

Estratégia utilizada em RL offline para melhorar a estabilidade, repetindo ações semelhantes às observadas nos dados. Esta técnica reduz o risco de gerar ações completamente novas e potencialmente perigosas.

📖

termos

Estimativa de Incerteza

Quantificação da incerteza associada às estimativas de valor de ações não observadas no lote. Uma estimativa precisa da incerteza permite penalizar ações fora da distribuição e melhorar a robustez.

📖

termos

RL Baseado em Modelo

Abordagem que aprende um modelo da dinâmica do ambiente a partir de dados offline para gerar experiências sintéticas. No contexto offline, este modelo deve ser usado com cautela para evitar a propagação de erros.

📖

termos

Avaliação de Política

Fase de avaliação do desempenho de uma política utilizando apenas dados offline, sem interação com o ambiente. Esta etapa é crucial para validar as aprendizagens antes da implantação.

📖

termos

Melhoria de Política

Processo de melhoria iterativa da política utilizando as estimativas de valor calculadas a partir do lote de dados offline. A melhoria deve respeitar as restrições de distribuição para manter a validade.

📖

termos

Erro de Bootstrapping

Erro acumulado quando uma política usa suas próprias estimativas de valor para melhorar, levando a uma divergência fora do suporte dos dados. Métodos offline usam técnicas específicas para controlar esse viés.

Glossário IA