Glossário IA
O dicionário completo da Inteligência Artificial
Batch Constrained Q-learning (BCQ)
Algoritmo de aprendizagem por reforço offline que restringe as políticas a permanecerem próximas das ações observadas no conjunto de dados de treinamento para evitar erros de extrapolação. O BCQ utiliza um modelo gerador de ações para produzir ações semelhantes às do lote, enquanto explora ligeiras variações.
Distribution Shift
Fenômeno em que a distribuição dos estados-ações visitados pela política aprendida difere significativamente da distribuição do conjunto de dados offline. Este desvio pode levar a estimativas de valor enviesadas e a um desempenho degradado durante a implementação.
Offline Reinforcement Learning
Paradigma de aprendizagem onde o agente aprende exclusivamente a partir de um conjunto fixo de dados previamente coletados, sem interação com o ambiente. Esta abordagem é essencial quando a exploração em tempo real é cara ou perigosa.
Behavior Cloning
Técnica de aprendizagem supervisionada que imita diretamente as ações de um especialista a partir de dados demonstrativos, sem usar sinais de recompensa. Embora simples, esta abordagem pode sofrer de acumulação de erros em cascata durante a implementação.
Implicit Q-learning
Método que aprende a função Q de forma implícita, evitando a avaliação direta de ações fora de distribuição. O IQL formula a aprendizagem como um problema de aprendizagem por expectile para melhor gerir a incerteza nos dados offline.
Out-of-Distribution Actions
Ações geradas pela política aprendida que não foram ou raramente foram observadas no conjunto de dados de treinamento. Estas ações representam um risco importante no RL offline, pois os seus valores não podem ser estimados de forma fiável.
Policy Constraint
Mecanismo que limita a política aprendida a produzir ações semelhantes às presentes no lote de dados offline. Esta restrição pode ser implementada através de penalidades, divergências ou modelos generativos condicionais.
Perturbation Model
Componente do BCQ que gera variações em torno das ações do comportamento para explorar localmente o espaço de ações. Este modelo adiciona um ruído controlado às ações observadas, garantindo a sua viabilidade.
Estimativa da Função de Valor
Processo de estimar valores Q a partir de dados offline, considerando o viés potencial devido à ausência de exploração. Métodos modernos utilizam técnicas de subestimação conservadora para evitar a superotimização.
RL em Lote
Estrutura de aprendizagem por reforço onde o agente possui um lote fixo de transições e deve aprender uma política ótima sem interações adicionais. Este contexto impõe restrições específicas aos algoritmos para evitar a divergência.
Restrição de Segurança
Restrição imposta às políticas offline para garantir que as ações geradas permaneçam em regiões seguras do espaço de estados-ações. Essas restrições são cruciais em aplicações como robótica ou medicina.
Repetição de Ação
Estratégia utilizada em RL offline para melhorar a estabilidade, repetindo ações semelhantes às observadas nos dados. Esta técnica reduz o risco de gerar ações completamente novas e potencialmente perigosas.
Estimativa de Incerteza
Quantificação da incerteza associada às estimativas de valor de ações não observadas no lote. Uma estimativa precisa da incerteza permite penalizar ações fora da distribuição e melhorar a robustez.
RL Baseado em Modelo
Abordagem que aprende um modelo da dinâmica do ambiente a partir de dados offline para gerar experiências sintéticas. No contexto offline, este modelo deve ser usado com cautela para evitar a propagação de erros.
Avaliação de Política
Fase de avaliação do desempenho de uma política utilizando apenas dados offline, sem interação com o ambiente. Esta etapa é crucial para validar as aprendizagens antes da implantação.
Melhoria de Política
Processo de melhoria iterativa da política utilizando as estimativas de valor calculadas a partir do lote de dados offline. A melhoria deve respeitar as restrições de distribuição para manter a validade.
Erro de Bootstrapping
Erro acumulado quando uma política usa suas próprias estimativas de valor para melhorar, levando a uma divergência fora do suporte dos dados. Métodos offline usam técnicas específicas para controlar esse viés.