Implicit Q-Learning (IQL)
Estimation de Q-Cible Implicite
Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.
← Retour