AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
策略梯度
一种直接优化方法,通过跟随期望回报的梯度来调整策略参数,允许在不需环境模型的情况下学习随机策略。
術語
REINFORCE算法
基础策略梯度算法,使用梯度的蒙特卡洛估计根据完全观察到的回合来更新策略参数。
術語
演员-评论家方法
混合方法,结合了学习策略的演员和估计价值函数的评论家,减少了策略梯度估计的方差。
術語
优势函数
衡量在给定状态下某个行动相对于平均行动的优势度,计算为Q函数与V函数的差值以减少梯度方差。
術語
近端策略优化(PPO)
通过限制更新使其接近先前策略来优化策略的算法,使用截断的目标函数确保学习稳定性。
術語
信任区域策略优化(TRPO)
通过在由连续策略之间的KL散度定义的信任区域内优化策略来保证性能单调改进的方法。
術語
自然策略梯度
策略梯度的变体,使用费舍尔度量进行参数化不变的更新,保证更稳定和有效的收敛。
術語
策略网络
参数化的神经网络,表示策略π(a|s; θ),根据当前状态生成行动的条件概率分布。
術語
蒙特卡罗策略梯度
一种梯度估计技术,使用完整轨迹计算回报,提供无偏但高方差的估计。
術語
基线函数
从回报中减去的函数,用于在不引入偏置的情况下减少梯度估计的方差,通常是状态值函数。
術語
重要性采样
允许使用旧策略收集的数据来更新新策略的技术,通过根据策略概率比率对样本进行加权。
術語
熵正则化
在目标函数中添加熵项,通过惩罚过于确定的策略来鼓励探索,提高学习的鲁棒性。
術語
确定性策略梯度
策略梯度在连续动作空间的扩展,其中策略是确定性的,在高维环境中特别有效。
術語
随机策略
由动作概率分布π(a|s)表示的策略,允许内在探索,对策略梯度方法至关重要。
術語
KL散度约束
限制连续策略之间的KL散度的约束,以确保稳定的更新并避免行为的剧烈变化。
術語
广义优势估计
通过多步估计器的加权平均来组合偏差和方差的优势估计方法,为学习提供最佳权衡。
術語
Policy Gradient Theorem
提供关于策略参数的预期回报的梯度分析表达式的基本定理,为方法奠定理论基础。
術語
Return-to-Go
从给定时间步开始的未来奖励的折扣总和,用作策略梯度算法中的梯度估计器。
🔍