SARSA
SARSA
Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.
← Wstecz