Оптимизация в режиме онлайн
Обучение с Частичной Информацией
Парадигма, в которой алгоритм получает информацию только о выбранном действии (бандит), а не обо всех возможных действиях (полная информация).
← Назад