Q-learning
Max-opérateur
Opération mathématique dans la mise à jour Q-learning qui sélectionne la valeur Q maximale parmi toutes les actions possibles de l'état suivant pour estimer les récompenses futures.
← Indietro