Aprendizagem Temporal Diferencial

📖

termos

Aprendizado Temporal Diferencial

Método de aprendizado por reforço que combina programação dinâmica e métodos Monte Carlo para atualizar as estimativas de valor após cada etapa sem esperar o fim de um episódio.

📖

termos

Erro TD

Diferença entre o valor estimado atual de um estado e o valor-alvo atualizado usando a recompensa imediata e a estimativa de valor do próximo estado.

📖

termos

Algoritmo generalizado de aprendizado temporal diferencial que usa um parâmetro λ para ponderar os retornos de n-passos e os traços de elegibilidade, permitindo um compromisso entre TD(0) e Monte Carlo.

📖

termos

Traços de Elegibilidade

Mecanismo que mantém uma memória de curto prazo dos estados ou ações visitados recentemente, permitindo atribuir crédito ou culpa de forma mais eficaz no aprendizado por reforço.

📖

termos

SARSA

Algoritmo on-policy de aprendizado temporal diferencial que atualiza os valores de ação-estado usando o quíntuplo (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação).

📖

termos

Bootstrapping TD

Técnica em que as estimativas de valor atuais são atualizadas usando outras estimativas de valor, permitindo um aprendizado online sem esperar pelos resultados finais.

📖

termos

Retorno TD

Estimativa do retorno esperado a partir de um determinado estado, calculada combinando as recompensas imediatas com as estimativas de valor futuro segundo o método de diferença temporal.

📖

termos

Atualização TD

Processo iterativo de ajuste das estimativas de valor usando o erro TD multiplicado por uma taxa de aprendizado para reduzir progressivamente a diferença entre previsão e realidade.

📖

termos

Convergence TD

Propriedade matemática que garante que os algoritmos de aprendizado temporal diferencial convergem para os valores ótimos sob certas condições nas taxas de aprendizado e exploração.

📖

termos

Equação de Bellman TD

Formulação da equação de Bellman adaptada ao aprendizado temporal diferencial, expressando o valor de um estado como uma função das recompensas imediatas e dos valores futuros.

📖

termos

Função de Valor TD

Estimativa iterativa do valor esperado dos estados ou ações, atualizada continuamente pelos métodos temporais diferenciais para aproximar a função de valor ótima.

📖

termos

Predictive TD

Aplicação do aprendizado temporal diferencial a problemas de predição de sequências, onde o algoritmo aprende a prever valores futuros com base em observações passadas.

📖

termos

Control TD

Extensão dos métodos TD a problemas de controle, onde o agente deve não apenas avaliar os estados, mas também aprender uma política de ação ótima para maximizar as recompensas acumuladas.

📖

termos

N-Step TD

Generalização do aprendizado temporal diferencial que utiliza n passos futuros para calcular as atualizações, oferecendo um compromisso entre TD(0) e os métodos completos de Monte Carlo.

Glossário IA

Aprendizado Temporal Diferencial

Erro TD

TD(λ)

Traços de Elegibilidade

SARSA

Bootstrapping TD

Retorno TD

Atualização TD

Convergence TD

Equação de Bellman TD

Função de Valor TD

Predictive TD

Control TD

N-Step TD

Nenhum resultado encontrado