AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
策略决策
定义在每种可能状态下应采取行动的策略或映射,代表强化学习过程中智能体的行为。
術語
多臂赌博机问题
顺序优化问题,智能体必须在奖励未知的多个选项中进行选择,以最大化随时间累积的奖励。
術語
累积奖励
智能体寻求最大化的未来预期奖励总和,通常使用折扣因子计算,对远期奖励赋予较小权重。
術語
SARSA算法
同策略强化学习算法,基于状态-动作-奖励-状态-动作序列更新Q值,与Q学习不同。
術語
深度Q网络
深度神经网络架构,用于在复杂状态空间中近似Q函数,结合深度学习和Q学习。
術語
深度强化学习
将深度神经网络集成到强化学习中的方法,用于处理高维状态或动作空间。
術語
ε-贪心策略
动作选择策略,以概率ε进行探索(选择随机动作),以概率1-ε进行利用(选择已知最佳动作)。
術語
策略优化
强化学习中的一类方法,直接优化策略而不通过价值函数,通常使用策略梯度技术。
術語
策略梯度算法
一种优化方法,直接根据预期奖励相对于策略参数的梯度来调整策略参数
術語
多智能体强化学习
强化学习的扩展,多个智能体在共享环境中同时学习,通常处于竞争或合作状态
術語
经验回放记忆
存储转换数据(状态、动作、奖励、下一状态)的数据结构,用于训练期间的重新采样,提高数据使用效率
術語
演员-评论家算法
结合了根据策略选择动作的演员和评估这些动作的评论家的架构,能够实现更稳定和高效的学习
🔍