Контекстуальные бандиты
Reward Function
Математическая функция, которая количественно оценивает немедленное вознаграждение, полученное после совершения действия в заданном контексте, направляя обучение алгоритма.
← Назад