AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
Epsilon 探索率
Epsilon-贪心算法中的控制参数,决定了探索而非利用的概率。其值直接影响收敛速度和所学策略的最终质量。
術語
贪心动作
根据智能体当前知识选择的具有最高估计值的动作。在 Epsilon-贪心中,该动作在利用阶段以 1-ε 的概率被选中。
術語
随机探索
从所有可用动作中均匀随机选择一个动作的过程。在 Epsilon-贪心中,该策略以 ε 的概率应用,以发现潜在的有利可图的新选项。
術語
Epsilon 衰减
Epsilon 值随时间逐渐减小的技术,旨在优先进行初始探索,然后进行最终利用。这种方法能更稳定地收敛到最优策略。
術語
乐观 Epsilon-贪心
该算法的变体,通过较高的乐观估计值初始化动作值,以鼓励初始探索。这种方法迫使智能体至少测试一次所有动作。
術語
累积遗憾
一种性能度量,量化了算法实际获得的奖励与可能获得的最优奖励总和之间的差异。它作为评估学习策略效率的指标。
術語
算法收敛
保证 Epsilon-贪心算法在特定条件下收敛到最优策略的属性。收敛取决于 Epsilon 的适当衰减和足够的迭代次数。
術語
值初始化
在学习开始时为每个动作的奖励估计分配初始值的过程。初始化策略显著影响智能体的初始探索行为。
術語
纯贪婪策略
Epsilon = 0 的策略,导致系统性利用当前被认为最优的动作而没有任何探索。该策略可能会过早收敛到局部最优解。
術語
Epsilon 退火
在学习过程中逐渐且受控地减少 epsilon 值的技术。退火允许从探索到利用的平滑过渡,以提高收敛性。
🔍