🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

UCB1

基础 UCB 算法,利用 Hoeffding 不等式计算置信边界,在平稳多臂老虎机框架下提供对数遗憾保证。

📖
術語

UCB1-Tuned

UCB1 的改进变体,根据观测到的奖励方差动态调整置信边界以优化探索。

📖
術語

UCB-V

显式利用方差估计构建更精确置信边界的 UCB 算法,对于高方差奖励特别有效。

📖
術語

UCB-alpha

UCB1 的参数化推广,其中参数 alpha 控制探索的激进程度,允许根据需要调整探索与利用的权衡。

📖
術語

MOSS (Minimax Optimal Strategy)

Minimax 意义下的最优 UCB 算法,通过根据剩余总迭代次数调整置信边界,达到最坏情况下的最小遗憾。

📖
術語

KL-UCB

使用 Kullback-Leibler 散度构建渐近最优置信边界的 UCB 变体,特别适用于有界奖励。

📖
術語

Regret logarithmique

UCB 算法的性能度量,指累积遗憾随时间呈对数增长,表征了平稳多臂老虎机问题中的最优性。

📖
術語

Optimisme face à l'incertitude

指导 UCB 算法的哲学和数学原则,假定不确定的动作值得探索,因为它们可能是最优的。

📖
術語

信心指数

一种量化动作估计统计确定性水平的指标,用于在UCB算法的高级变体中对探索进行加权。

📖
術語

渐近最优性

一种理论性质,保证UCB算法渐近地达到可能的最小遗憾界限,从而表征其长期效率。

📖
術語

UCB-Normal

UCB的一种变体,专为服从正态分布的奖励设计,利用高斯分布的精确性质来实现最优界限。

📖
術語

高效UCB

一类UCB算法,在针对大规模问题保持对数遗憾理论保证的同时,达到了最优的计算复杂度。

📖
術語

上置信树 (UCT)

将UCB原理应用于搜索树以进行序列决策,是许多使用蒙特卡洛树搜索的游戏算法(如AlphaGo)的基础。

🔍

搵唔到結果