Глоссарий ИИ
Полный словарь искусственного интеллекта
UCB1
Базовый алгоритм UCB, использующий неравенство Хеффдинга для вычисления доверительных границ, обеспечивающий логарифмическое сожаление в стационарных задачах о многоруком бандите.
UCB1-Tuned
Улучшенный вариант UCB1, который динамически адаптирует доверительные границы в зависимости от наблюдаемой дисперсии вознаграждений для оптимизации исследования.
UCB-V
Алгоритм UCB, явно использующий оценки дисперсии для построения более точных доверительных границ, особенно эффективный при вознаграждениях с высокой дисперсией.
UCB-alpha
Параметрическое обобщение UCB1, где параметр альфа контролирует агрессивность исследования, позволяя настраивать компромисс между исследованием и использованием в зависимости от потребностей.
MOSS (Minimax Optimal Strategy)
Минимаксно-оптимальный алгоритм UCB, достигающий минимального сожаления в худшем случае за счёт адаптации доверительных границ к общему числу оставшихся итераций.
KL-UCB
Вариант UCB, использующий дивергенцию Кульбака-Лейблера для построения асимптотически оптимальных доверительных границ, особенно подходящий для ограниченных вознаграждений.
Regret logarithmique
Показатель производительности алгоритмов UCB, при котором кумулятивное сожаление растёт логарифмически со временем, что характеризует оптимальность в стационарных задачах о многоруком бандите.
Optimisme face à l'incertitude
Философский и математический принцип, лежащий в основе алгоритмов UCB, постулирующий, что неопределённые действия заслуживают исследования, поскольку они могут оказаться оптимальными.
Индекс уверенности
Индекс, количественно определяющий уровень статистической достоверности оценки действия, используемый для взвешивания исследования в расширенных вариантах алгоритмов UCB.
Асимптотическая оптимальность
Теоретическое свойство, гарантирующее, что алгоритм UCB асимптотически достигает наименьшей возможной границы сожаления, характеризующее его долгосрочную эффективность.
UCB-Normal
Вариант UCB, специально разработанный для вознаграждений, следующих нормальному распределению, использующий точные свойства гауссовского распределения для оптимальных границ.
Эффективный UCB
Семейство алгоритмов UCB, достигающее оптимальной вычислительной сложности при сохранении теоретических гарантий логарифмического сожаления для крупномасштабных задач.
Деревья верхнего доверия (UCT)
Применение принципа UCB к деревьям поиска для последовательного принятия решений, основа многих игровых алгоритмов, таких как AlphaGo, использующих поиск по дереву Монте-Карло.