Glossário IA
O dicionário completo da Inteligência Artificial
RL Offline Baseado em Modelo
Abordagem de aprendizagem por reforço offline que aprende um modelo dinâmico do ambiente para gerar dados sintéticos e melhorar a política sem interação real.
Rollouts de Imaginação
Trajetórias simuladas geradas usando o modelo aprendido do ambiente para explorar potenciais estados futuros sem interação real com o ambiente.
Otimização Conservadora de Políticas
Algoritmo que penaliza explicitamente políticas que se desviam significativamente do comportamento dos dados de treinamento para evitar erros de extrapolação.
Quantificação de Incerteza
Técnica que permite estimar a incerteza do modelo dinâmico em regiões fora da distribuição para guiar a exploração e evitar erros catastróficos.
Modelos de Ensemble
Coleção de vários modelos dinâmicos treinados com diferentes inicializações para estimar a incerteza epistêmica pela variância das previsões.
Transformers de Trajetória
Arquitetura transformer que modela trajetórias como sequências de estados, ações e recompensas para prever transições futuras na aprendizagem offline.
Transferência Offline-para-Online
Processo de transferência de uma política aprendida offline para um ambiente online para refinamento e adaptação contínua com interação real.
Ensemble de Modelos
Técnica que utiliza múltiplos modelos dinâmicos para capturar diferentes hipóteses sobre a transição de estado e melhorar a robustez das previsões.
Regressão Ponderada por Vantagem
Método offline que pondera as ações nos dados de treinamento de acordo com sua vantagem estimada para melhorar a política além da simples clonagem.
Detecção Fora da Distribuição
Mecanismo para identificar quando os estados gerados pelo modelo se desviam significativamente da distribuição dos dados de treinamento originais.