AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
UCB1
基础 UCB 算法,利用 Hoeffding 不等式计算置信边界,在平稳多臂老虎机框架下提供对数遗憾保证。
个术语
UCB1-Tuned
UCB1 的改进变体,根据观测到的奖励方差动态调整置信边界以优化探索。
个术语
UCB-V
显式利用方差估计构建更精确置信边界的 UCB 算法,对于高方差奖励特别有效。
个术语
UCB-alpha
UCB1 的参数化推广,其中参数 alpha 控制探索的激进程度,允许根据需要调整探索与利用的权衡。
个术语
MOSS (Minimax Optimal Strategy)
Minimax 意义下的最优 UCB 算法,通过根据剩余总迭代次数调整置信边界,达到最坏情况下的最小遗憾。
个术语
KL-UCB
使用 Kullback-Leibler 散度构建渐近最优置信边界的 UCB 变体,特别适用于有界奖励。
个术语
Regret logarithmique
UCB 算法的性能度量,指累积遗憾随时间呈对数增长,表征了平稳多臂老虎机问题中的最优性。
个术语
Optimisme face à l'incertitude
指导 UCB 算法的哲学和数学原则,假定不确定的动作值得探索,因为它们可能是最优的。
个术语
信心指数
一种量化动作估计统计确定性水平的指标,用于在UCB算法的高级变体中对探索进行加权。
个术语
渐近最优性
一种理论性质,保证UCB算法渐近地达到可能的最小遗憾界限,从而表征其长期效率。
个术语
UCB-Normal
UCB的一种变体,专为服从正态分布的奖励设计,利用高斯分布的精确性质来实现最优界限。
个术语
高效UCB
一类UCB算法,在针对大规模问题保持对数遗憾理论保证的同时,达到了最优的计算复杂度。
个术语
上置信树 (UCT)
将UCB原理应用于搜索树以进行序列决策,是许多使用蒙特卡洛树搜索的游戏算法(如AlphaGo)的基础。
🔍