AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
Epsilon 探索率
Epsilon-贪心算法中的控制参数,决定了探索而非利用的概率。其值直接影响收敛速度和所学策略的最终质量。
个术语
贪心动作
根据智能体当前知识选择的具有最高估计值的动作。在 Epsilon-贪心中,该动作在利用阶段以 1-ε 的概率被选中。
个术语
随机探索
从所有可用动作中均匀随机选择一个动作的过程。在 Epsilon-贪心中,该策略以 ε 的概率应用,以发现潜在的有利可图的新选项。
个术语
Epsilon 衰减
Epsilon 值随时间逐渐减小的技术,旨在优先进行初始探索,然后进行最终利用。这种方法能更稳定地收敛到最优策略。
个术语
乐观 Epsilon-贪心
该算法的变体,通过较高的乐观估计值初始化动作值,以鼓励初始探索。这种方法迫使智能体至少测试一次所有动作。
个术语
累积遗憾
一种性能度量,量化了算法实际获得的奖励与可能获得的最优奖励总和之间的差异。它作为评估学习策略效率的指标。
个术语
算法收敛
保证 Epsilon-贪心算法在特定条件下收敛到最优策略的属性。收敛取决于 Epsilon 的适当衰减和足够的迭代次数。
个术语
值初始化
在学习开始时为每个动作的奖励估计分配初始值的过程。初始化策略显著影响智能体的初始探索行为。
个术语
纯贪婪策略
Epsilon = 0 的策略,导致系统性利用当前被认为最优的动作而没有任何探索。该策略可能会过早收敛到局部最优解。
个术语
Epsilon 退火
在学习过程中逐渐且受控地减少 epsilon 值的技术。退火允许从探索到利用的平滑过渡,以提高收敛性。
🔍