🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

UCB1

基础 UCB 算法,利用 Hoeffding 不等式计算置信边界,在平稳多臂老虎机框架下提供对数遗憾保证。

📖
个术语

UCB1-Tuned

UCB1 的改进变体,根据观测到的奖励方差动态调整置信边界以优化探索。

📖
个术语

UCB-V

显式利用方差估计构建更精确置信边界的 UCB 算法,对于高方差奖励特别有效。

📖
个术语

UCB-alpha

UCB1 的参数化推广,其中参数 alpha 控制探索的激进程度,允许根据需要调整探索与利用的权衡。

📖
个术语

MOSS (Minimax Optimal Strategy)

Minimax 意义下的最优 UCB 算法,通过根据剩余总迭代次数调整置信边界,达到最坏情况下的最小遗憾。

📖
个术语

KL-UCB

使用 Kullback-Leibler 散度构建渐近最优置信边界的 UCB 变体,特别适用于有界奖励。

📖
个术语

Regret logarithmique

UCB 算法的性能度量,指累积遗憾随时间呈对数增长,表征了平稳多臂老虎机问题中的最优性。

📖
个术语

Optimisme face à l'incertitude

指导 UCB 算法的哲学和数学原则,假定不确定的动作值得探索,因为它们可能是最优的。

📖
个术语

信心指数

一种量化动作估计统计确定性水平的指标,用于在UCB算法的高级变体中对探索进行加权。

📖
个术语

渐近最优性

一种理论性质,保证UCB算法渐近地达到可能的最小遗憾界限,从而表征其长期效率。

📖
个术语

UCB-Normal

UCB的一种变体,专为服从正态分布的奖励设计,利用高斯分布的精确性质来实现最优界限。

📖
个术语

高效UCB

一类UCB算法,在针对大规模问题保持对数遗憾理论保证的同时,达到了最优的计算复杂度。

📖
个术语

上置信树 (UCT)

将UCB原理应用于搜索树以进行序列决策,是许多使用蒙特卡洛树搜索的游戏算法(如AlphaGo)的基础。

🔍

未找到结果