Epsilon-贪婪算法 - AI 术语表

📖

个术语

Epsilon 探索率

Epsilon-贪心算法中的控制参数，决定了探索而非利用的概率。其值直接影响收敛速度和所学策略的最终质量。

📖

个术语

贪心动作

根据智能体当前知识选择的具有最高估计值的动作。在 Epsilon-贪心中，该动作在利用阶段以 1-ε 的概率被选中。

📖

个术语

随机探索

从所有可用动作中均匀随机选择一个动作的过程。在 Epsilon-贪心中，该策略以 ε 的概率应用，以发现潜在的有利可图的新选项。

📖

个术语

Epsilon 衰减

Epsilon 值随时间逐渐减小的技术，旨在优先进行初始探索，然后进行最终利用。这种方法能更稳定地收敛到最优策略。

📖

个术语

乐观 Epsilon-贪心

该算法的变体，通过较高的乐观估计值初始化动作值，以鼓励初始探索。这种方法迫使智能体至少测试一次所有动作。

📖

个术语

累积遗憾

一种性能度量，量化了算法实际获得的奖励与可能获得的最优奖励总和之间的差异。它作为评估学习策略效率的指标。

📖

个术语

算法收敛

保证 Epsilon-贪心算法在特定条件下收敛到最优策略的属性。收敛取决于 Epsilon 的适当衰减和足够的迭代次数。

📖

个术语

值初始化

在学习开始时为每个动作的奖励估计分配初始值的过程。初始化策略显著影响智能体的初始探索行为。

📖

个术语

纯贪婪策略

Epsilon = 0 的策略，导致系统性利用当前被认为最优的动作而没有任何探索。该策略可能会过早收敛到局部最优解。

📖

个术语

Epsilon 退火

在学习过程中逐渐且受控地减少 epsilon 值的技术。退火允许从探索到利用的平滑过渡，以提高收敛性。

AI 词汇表