Glossário IA
O dicionário completo da Inteligência Artificial
Q-learning
Algoritmo de aprendizado por reforço sem modelo que aprende a função de valor ação-estado para encontrar a política ótima.
SARSA
Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q utilizando a ação realmente executada.
Programação Dinâmica
Métodos matemáticos incluindo iteração de valor e iteração de política para resolver os Processos de Decisão Markovianos (MDP).
Métodos Monte Carlo
Técnicas de aprendizado baseadas em amostragem de episódios completos para estimar os valores.
Aprendizagem Temporal Diferencial
Combinação de programação dinâmica e Monte Carlo que permite atualizações online após cada etapa.
Double Q-learning
Variante do Q-learning que utiliza dois estimadores Q para reduzir o viés de superestimação dos valores de ação.
Aproximação de Função
Extensão dos métodos tabulares para espaços de estados contínuos usando aproximadores como redes neurais.
Aprendizado com Modelo
Abordagens em que o modelo de transição do ambiente é conhecido ou aprendido para planejar as ações.
Exploração vs Exploração
Estratégias para equilibrar a exploração de novas ações e a exploração dos conhecimentos adquiridos.
Processos de Decisão Markovianos
Estrutura matemática formal que modela problemas de decisão sequencial em ambientes estocásticos.
Aprendizagem Multiagentes
Extensão da aprendizagem por reforço para ambientes com múltiplos agentes interagindo.
Processos Parcialmente Observáveis
Generalização de MDPs onde o estado é apenas parcialmente observável, exigindo crenças sobre o estado.
Métodos de Gradiente de Política
Otimização direta dos parâmetros da política seguindo o gradiente das recompensas esperadas.
Traços de Eligibilidade
Mecanismo que combina as vantagens do TD e do Monte Carlo para acelerar a aprendizagem através de crédito temporal.
Fatoração de Valor
Decomposição da função Q em valor de estado e vantagem para melhorar a estabilidade da aprendizagem.