强化学习用于优化

📖

術語

策略决策

定义在每种可能状态下应采取行动的策略或映射，代表强化学习过程中智能体的行为。

📖

術語

多臂赌博机问题

顺序优化问题，智能体必须在奖励未知的多个选项中进行选择，以最大化随时间累积的奖励。

📖

術語

累积奖励

智能体寻求最大化的未来预期奖励总和，通常使用折扣因子计算，对远期奖励赋予较小权重。

📖

術語

SARSA算法

同策略强化学习算法，基于状态-动作-奖励-状态-动作序列更新Q值，与Q学习不同。

📖

術語

深度Q网络

深度神经网络架构，用于在复杂状态空间中近似Q函数，结合深度学习和Q学习。

📖

術語

深度强化学习

将深度神经网络集成到强化学习中的方法，用于处理高维状态或动作空间。

📖

術語

ε-贪心策略

动作选择策略，以概率ε进行探索（选择随机动作），以概率1-ε进行利用（选择已知最佳动作）。

📖

術語

策略优化

强化学习中的一类方法，直接优化策略而不通过价值函数，通常使用策略梯度技术。

📖

術語

策略梯度算法

一种优化方法，直接根据预期奖励相对于策略参数的梯度来调整策略参数

📖

術語

多智能体强化学习

强化学习的扩展，多个智能体在共享环境中同时学习，通常处于竞争或合作状态

📖

術語

经验回放记忆

存储转换数据（状态、动作、奖励、下一状态）的数据结构，用于训练期间的重新采样，提高数据使用效率

📖

術語

演员-评论家算法

结合了根据策略选择动作的演员和评估这些动作的评论家的架构，能够实现更稳定和高效的学习

AI 詞彙表