Алгоритмы UCB - Глоссарий ИИ

📖

термины

UCB1

Базовый алгоритм UCB, использующий неравенство Хеффдинга для вычисления доверительных границ, обеспечивающий логарифмическое сожаление в стационарных задачах о многоруком бандите.

📖

термины

UCB1-Tuned

Улучшенный вариант UCB1, который динамически адаптирует доверительные границы в зависимости от наблюдаемой дисперсии вознаграждений для оптимизации исследования.

📖

термины

UCB-V

Алгоритм UCB, явно использующий оценки дисперсии для построения более точных доверительных границ, особенно эффективный при вознаграждениях с высокой дисперсией.

📖

термины

UCB-alpha

Параметрическое обобщение UCB1, где параметр альфа контролирует агрессивность исследования, позволяя настраивать компромисс между исследованием и использованием в зависимости от потребностей.

📖

термины

MOSS (Minimax Optimal Strategy)

Минимаксно-оптимальный алгоритм UCB, достигающий минимального сожаления в худшем случае за счёт адаптации доверительных границ к общему числу оставшихся итераций.

📖

термины

KL-UCB

Вариант UCB, использующий дивергенцию Кульбака-Лейблера для построения асимптотически оптимальных доверительных границ, особенно подходящий для ограниченных вознаграждений.

📖

термины

Regret logarithmique

Показатель производительности алгоритмов UCB, при котором кумулятивное сожаление растёт логарифмически со временем, что характеризует оптимальность в стационарных задачах о многоруком бандите.

📖

термины

Optimisme face à l'incertitude

Философский и математический принцип, лежащий в основе алгоритмов UCB, постулирующий, что неопределённые действия заслуживают исследования, поскольку они могут оказаться оптимальными.

📖

термины

Индекс уверенности

Индекс, количественно определяющий уровень статистической достоверности оценки действия, используемый для взвешивания исследования в расширенных вариантах алгоритмов UCB.

📖

термины

Асимптотическая оптимальность

Теоретическое свойство, гарантирующее, что алгоритм UCB асимптотически достигает наименьшей возможной границы сожаления, характеризующее его долгосрочную эффективность.

📖

термины

UCB-Normal

Вариант UCB, специально разработанный для вознаграждений, следующих нормальному распределению, использующий точные свойства гауссовского распределения для оптимальных границ.

📖

термины

Эффективный UCB

Семейство алгоритмов UCB, достигающее оптимальной вычислительной сложности при сохранении теоретических гарантий логарифмического сожаления для крупномасштабных задач.

📖

термины

Деревья верхнего доверия (UCT)

Применение принципа UCB к деревьям поиска для последовательного принятия решений, основа многих игровых алгоритмов, таких как AlphaGo, использующих поиск по дереву Монте-Карло.

Глоссарий ИИ

UCB1

UCB1-Tuned

UCB-V

UCB-alpha

MOSS (Minimax Optimal Strategy)

KL-UCB

Regret logarithmique

Optimisme face à l'incertitude

Индекс уверенности

Асимптотическая оптимальность

UCB-Normal

Эффективный UCB

Деревья верхнего доверия (UCT)

Результаты не найдены