UCB算法 - AI 詞彙表

📖

術語

UCB1

基础 UCB 算法，利用 Hoeffding 不等式计算置信边界，在平稳多臂老虎机框架下提供对数遗憾保证。

📖

術語

UCB1-Tuned

UCB1 的改进变体，根据观测到的奖励方差动态调整置信边界以优化探索。

📖

術語

UCB-V

显式利用方差估计构建更精确置信边界的 UCB 算法，对于高方差奖励特别有效。

📖

術語

UCB-alpha

UCB1 的参数化推广，其中参数 alpha 控制探索的激进程度，允许根据需要调整探索与利用的权衡。

📖

術語

MOSS (Minimax Optimal Strategy)

Minimax 意义下的最优 UCB 算法，通过根据剩余总迭代次数调整置信边界，达到最坏情况下的最小遗憾。

📖

術語

KL-UCB

使用 Kullback-Leibler 散度构建渐近最优置信边界的 UCB 变体，特别适用于有界奖励。

📖

術語

Regret logarithmique

UCB 算法的性能度量，指累积遗憾随时间呈对数增长，表征了平稳多臂老虎机问题中的最优性。

📖

術語

Optimisme face à l'incertitude

指导 UCB 算法的哲学和数学原则，假定不确定的动作值得探索，因为它们可能是最优的。

📖

術語

信心指数

一种量化动作估计统计确定性水平的指标，用于在UCB算法的高级变体中对探索进行加权。

📖

術語

渐近最优性

一种理论性质，保证UCB算法渐近地达到可能的最小遗憾界限，从而表征其长期效率。

📖

術語

UCB-Normal

UCB的一种变体，专为服从正态分布的奖励设计，利用高斯分布的精确性质来实现最优界限。

📖

術語

高效UCB

一类UCB算法，在针对大规模问题保持对数遗憾理论保证的同时，达到了最优的计算复杂度。

📖

術語

上置信树 (UCT)

将UCB原理应用于搜索树以进行序列决策，是许多使用蒙特卡洛树搜索的游戏算法（如AlphaGo）的基础。

AI 詞彙表