Apprentissage par Renforcement pour l'Optimisation
Algorithme SARSA
Algorithme d'apprentissage par renforcement en-politique qui met à jour les valeurs Q basées sur la séquence State-Action-Reward-State-Action, contrairement au Q-learning.
← Retour