Glossário IA
O dicionário completo da Inteligência Artificial
Distribuição estado-ação
Representação probabilística da função de valor Q(s,a) que modela a distribuição completa dos retornos possíveis em vez de apenas sua esperança matemática.
Modelo de transição distribucional
Modelo de aprendizado por reforço baseado em modelo que captura a incerteza nas transições de estados, modelando distribuições de probabilidade sobre os próximos estados.
Modelo de dinâmica probabilística
Modelo preditivo em RL baseado em modelo que gera distribuições de probabilidade sobre os próximos estados ou recompensas, em vez de previsões determinísticas.
Incerteza epistêmica em RL
Incerteza devido à falta de conhecimento sobre o modelo do ambiente, modelada por distribuições nas abordagens distribucionais de RL baseado em modelo.
Incerteza aleatória em RL
Incerteza inerente ao ambiente que não pode ser reduzida mesmo com mais dados, capturada pelas distribuições nos modelos de RL distribucionais.
Gradiente de política distribucional
Extensão dos métodos de gradiente de política que otimiza diretamente sobre a distribuição dos retornos em vez de sua esperança, permitindo políticas sensíveis ao risco.
RL sensível ao risco
Abordagem de aprendizado por reforço que utiliza informações distribucionais para otimizar métricas de risco como CVaR ou o desvio padrão, em vez da esperança sozinha.
Conjuntos de modelos em RL distribucional
Técnica que utiliza múltiplos modelos aprendidos independentemente para capturar a incerteza epistêmica nas abordagens distribucionais de RL baseado em modelo.
Modelos de distribuição baseados em partículas
Abordagem de modelagem distribucional que representa as distribuições por um conjunto de partículas ponderadas, útil para transições complexas no RL baseado em modelo.
Distância de Wasserstein em RL distribucional
Métrica utilizada para medir a dissimilaridade entre distribuições no operador de Bellman distribucional, oferecendo melhores propriedades de convergência do que a distância KL.
Correspondência de momentos em RL distribucional
Técnica de otimização que ajusta os parâmetros para fazer corresponder os momentos estatísticos (média, variância, etc.) das distribuições preditas e alvo.
Inferência variacional em RL
Método de aproximação de distribuições complexas otimizando uma família de distribuições mais simples, aplicado no RL baseado em modelo para gerenciar a incerteza.
RL Bayesiano baseado em modelo
Abordagem que mantém uma distribuição sobre os modelos possíveis do ambiente, utilizando métodos Bayesianos para quantificar e explorar a incerteza epistêmica.
Operador de Bellman distribucional
Extensão do operador de Bellman clássico que opera sobre distribuições de retornos em vez de valores escalares, preservando a estrutura distribucional.
Distribuições dependentes do horizonte
Conceito no RL distribucional onde a distribuição dos retornos muda com o horizonte temporal, capturando a evolução da incerteza em diferentes escalas de tempo.
Projeção atômica categórica
Operação matemática utilizada em C51 que projeta a distribuição alvo no suporte de átomos predefinido para manter a coerência das distribuições.
Propagação de incerteza distribucional
Processo em RL baseado em modelo onde a incerteza das previsões do modelo é propagada através das etapas de planejamento para avaliar a robustez das políticas.