Контекстуальные бандиты
Action-Value Function
Функция Q(a,x), которая оценивает ожидаемое будущее вознаграждение при выборе действия 'a' в контексте 'x', являющаяся основой для оценки стратегий.
← Назад