Multi-Agent Deep RL
COMA (Counterfactual Multi-Agent Policy Gradients)
Algorithme qui utilise des bases contrefactuelles pour estimer comment les actions individuelles affectent la récompense globale en modifiant la politique d'un agent tout en maintenant les autres fixes.
← Retour