Optimisation en Ligne
Learning with Partial Information
Paradigme où l'algorithme ne reçoit des informations que sur l'action choisie (bandit) plutôt que sur toutes les actions possibles (full information).
← Retour