Glossário IA
O dicionário completo da Inteligência Artificial
SARSA
Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q usando o quinteto (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação), diferentemente do Q-learning, que usa a próxima ação ótima.
On-policy
Método de aprendizado em que a política de avaliação e a política de melhoria são idênticas; o agente aprende diretamente com sua política atual, ao invés de uma política de comportamento distinta.
Política Epsilon-greedy
Estratégia de ação que escolhe a ação ótima com probabilidade (1-ε) e uma ação aleatória com probabilidade ε, garantindo um equilíbrio entre exploração e aproveitamento no SARSA.
Função Q-value
Função de avaliação que estima a recompensa cumulativa esperada ao executar uma ação específica em um estado dado e, posteriormente, seguir uma política determinada.
Convergência SARSA
Propriedade que garante que o algoritmo SARSA converge para a função Q-value ótima sob certas condições, como taxa de aprendizado decrescente e política GLIE.
Tabela Q
Estrutura de dados bidimensional que armazena os valores Q para cada par estado-ação, usada nas versões tabulares do SARSA para espaços discretos de estados.
Política GLIE
Política 'Greedy in the Limit with Infinite Exploration', que garante exploração suficiente enquanto converge para uma política gananciosa, essencial para a convergência do SARSA.
Equação de atualização SARSA
Fórmula Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], que ajusta iterativamente os valores Q usando a ação realmente executada, em vez da ação ótima.
Erreur TD
Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.
SARSA(λ)
Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.
Traces d'éligibilité
Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).
Critique d'approximation
Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.
Stabilisation SARSA
Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.