🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Epsilon 探索率

Epsilon-贪心算法中的控制参数,决定了探索而非利用的概率。其值直接影响收敛速度和所学策略的最终质量。

📖
个术语

贪心动作

根据智能体当前知识选择的具有最高估计值的动作。在 Epsilon-贪心中,该动作在利用阶段以 1-ε 的概率被选中。

📖
个术语

随机探索

从所有可用动作中均匀随机选择一个动作的过程。在 Epsilon-贪心中,该策略以 ε 的概率应用,以发现潜在的有利可图的新选项。

📖
个术语

Epsilon 衰减

Epsilon 值随时间逐渐减小的技术,旨在优先进行初始探索,然后进行最终利用。这种方法能更稳定地收敛到最优策略。

📖
个术语

乐观 Epsilon-贪心

该算法的变体,通过较高的乐观估计值初始化动作值,以鼓励初始探索。这种方法迫使智能体至少测试一次所有动作。

📖
个术语

累积遗憾

一种性能度量,量化了算法实际获得的奖励与可能获得的最优奖励总和之间的差异。它作为评估学习策略效率的指标。

📖
个术语

算法收敛

保证 Epsilon-贪心算法在特定条件下收敛到最优策略的属性。收敛取决于 Epsilon 的适当衰减和足够的迭代次数。

📖
个术语

值初始化

在学习开始时为每个动作的奖励估计分配初始值的过程。初始化策略显著影响智能体的初始探索行为。

📖
个术语

纯贪婪策略

Epsilon = 0 的策略,导致系统性利用当前被认为最优的动作而没有任何探索。该策略可能会过早收敛到局部最优解。

📖
个术语

Epsilon 退火

在学习过程中逐渐且受控地减少 epsilon 值的技术。退火允许从探索到利用的平滑过渡,以提高收敛性。

🔍

未找到结果