Implicit Q-Learning (IQL)
Fonction d'Avantage Implicite
Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.
← رجوع