Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizado Temporal Diferencial
Método de aprendizado por reforço que combina programação dinâmica e métodos Monte Carlo para atualizar as estimativas de valor após cada etapa sem esperar o fim de um episódio.
Erro TD
Diferença entre o valor estimado atual de um estado e o valor-alvo atualizado usando a recompensa imediata e a estimativa de valor do próximo estado.
TD(λ)
Algoritmo generalizado de aprendizado temporal diferencial que usa um parâmetro λ para ponderar os retornos de n-passos e os traços de elegibilidade, permitindo um compromisso entre TD(0) e Monte Carlo.
Traços de Elegibilidade
Mecanismo que mantém uma memória de curto prazo dos estados ou ações visitados recentemente, permitindo atribuir crédito ou culpa de forma mais eficaz no aprendizado por reforço.
SARSA
Algoritmo on-policy de aprendizado temporal diferencial que atualiza os valores de ação-estado usando o quíntuplo (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação).
Bootstrapping TD
Técnica em que as estimativas de valor atuais são atualizadas usando outras estimativas de valor, permitindo um aprendizado online sem esperar pelos resultados finais.
Retorno TD
Estimativa do retorno esperado a partir de um determinado estado, calculada combinando as recompensas imediatas com as estimativas de valor futuro segundo o método de diferença temporal.
Atualização TD
Processo iterativo de ajuste das estimativas de valor usando o erro TD multiplicado por uma taxa de aprendizado para reduzir progressivamente a diferença entre previsão e realidade.
Convergence TD
Propriedade matemática que garante que os algoritmos de aprendizado temporal diferencial convergem para os valores ótimos sob certas condições nas taxas de aprendizado e exploração.
Equação de Bellman TD
Formulação da equação de Bellman adaptada ao aprendizado temporal diferencial, expressando o valor de um estado como uma função das recompensas imediatas e dos valores futuros.
Função de Valor TD
Estimativa iterativa do valor esperado dos estados ou ações, atualizada continuamente pelos métodos temporais diferenciais para aproximar a função de valor ótima.
Predictive TD
Aplicação do aprendizado temporal diferencial a problemas de predição de sequências, onde o algoritmo aprende a prever valores futuros com base em observações passadas.
Control TD
Extensão dos métodos TD a problemas de controle, onde o agente deve não apenas avaliar os estados, mas também aprender uma política de ação ótima para maximizar as recompensas acumuladas.
N-Step TD
Generalização do aprendizado temporal diferencial que utiliza n passos futuros para calcular as atualizações, oferecendo um compromisso entre TD(0) e os métodos completos de Monte Carlo.