Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
SARSA
Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.
On-policy
Méthode d'apprentissage où la politique d'évaluation et la politique d'amélioration sont identiques, l'agent apprend en suivant directement sa politique actuelle plutôt qu'une politique de comportement distincte.
Politique Epsilon-greedy
Stratégie d'action qui choisit l'action optimale avec probabilité (1-ε) et une action aléatoire avec probabilité ε, assurant un équilibre entre exploitation et exploration dans SARSA.
Fonction Q-valeur
Fonction d'évaluation qui estime la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique déterminée par la suite.
Convergence SARSA
Propriété garantissant que l'algorithme SARSA converge vers la fonction Q-valeur optimale sous certaines conditions, notamment avec un taux d'apprentissage décroissant et une politique GLIE.
Table Q
Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires de SARSA pour les espaces d'états discrets.
Politique GLIE
Politique 'Greedy in the Limit with Infinite Exploration' qui garantit l'exploration suffisante tout en convergeant vers une politique gloutonne, essentielle pour la convergence de SARSA.
Équation de mise à jour SARSA
Formule Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] qui ajuste itérativement les valeurs Q en utilisant l'action réellement exécutée plutôt que l'action optimale.
Erreur TD
Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.
SARSA(λ)
Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.
Traces d'éligibilité
Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).
Critique d'approximation
Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.
Stabilisation SARSA
Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.