SARSA

📖

termos

Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q usando o quinteto (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação), diferentemente do Q-learning, que usa a próxima ação ótima.

📖

termos

On-policy

Método de aprendizado em que a política de avaliação e a política de melhoria são idênticas; o agente aprende diretamente com sua política atual, ao invés de uma política de comportamento distinta.

📖

termos

Política Epsilon-greedy

Estratégia de ação que escolhe a ação ótima com probabilidade (1-ε) e uma ação aleatória com probabilidade ε, garantindo um equilíbrio entre exploração e aproveitamento no SARSA.

📖

termos

Função Q-value

Função de avaliação que estima a recompensa cumulativa esperada ao executar uma ação específica em um estado dado e, posteriormente, seguir uma política determinada.

📖

termos

Convergência SARSA

Propriedade que garante que o algoritmo SARSA converge para a função Q-value ótima sob certas condições, como taxa de aprendizado decrescente e política GLIE.

📖

termos

Tabela Q

Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do SARSA para espaços discretos de estados.

📖

termos

Política GLIE

Política 'Greedy in the Limit with Infinite Exploration', que garante exploração suficiente enquanto converge para uma política gananciosa, essencial para a convergência do SARSA.

📖

termos

Equação de atualização SARSA

Fórmula Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], que ajusta iterativamente os valores Q usando a ação realmente executada, em vez da ação ótima.

📖

termos

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖

termos

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖

termos

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖

termos

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖

termos

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

Glossário IA

SARSA

On-policy

Política Epsilon-greedy

Função Q-value

Convergência SARSA

Tabela Q

Política GLIE

Equação de atualização SARSA

Erreur TD

SARSA(λ)

Traces d'éligibilité

Critique d'approximation

Stabilisation SARSA

Nenhum resultado encontrado