AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
策略梯度
一种直接优化方法,通过跟随期望回报的梯度来调整策略参数,允许在不需环境模型的情况下学习随机策略。
个术语
REINFORCE算法
基础策略梯度算法,使用梯度的蒙特卡洛估计根据完全观察到的回合来更新策略参数。
个术语
演员-评论家方法
混合方法,结合了学习策略的演员和估计价值函数的评论家,减少了策略梯度估计的方差。
个术语
优势函数
衡量在给定状态下某个行动相对于平均行动的优势度,计算为Q函数与V函数的差值以减少梯度方差。
个术语
近端策略优化(PPO)
通过限制更新使其接近先前策略来优化策略的算法,使用截断的目标函数确保学习稳定性。
个术语
信任区域策略优化(TRPO)
通过在由连续策略之间的KL散度定义的信任区域内优化策略来保证性能单调改进的方法。
个术语
自然策略梯度
策略梯度的变体,使用费舍尔度量进行参数化不变的更新,保证更稳定和有效的收敛。
个术语
策略网络
参数化的神经网络,表示策略π(a|s; θ),根据当前状态生成行动的条件概率分布。
个术语
蒙特卡罗策略梯度
一种梯度估计技术,使用完整轨迹计算回报,提供无偏但高方差的估计。
个术语
基线函数
从回报中减去的函数,用于在不引入偏置的情况下减少梯度估计的方差,通常是状态值函数。
个术语
重要性采样
允许使用旧策略收集的数据来更新新策略的技术,通过根据策略概率比率对样本进行加权。
个术语
熵正则化
在目标函数中添加熵项,通过惩罚过于确定的策略来鼓励探索,提高学习的鲁棒性。
个术语
确定性策略梯度
策略梯度在连续动作空间的扩展,其中策略是确定性的,在高维环境中特别有效。
个术语
随机策略
由动作概率分布π(a|s)表示的策略,允许内在探索,对策略梯度方法至关重要。
个术语
KL散度约束
限制连续策略之间的KL散度的约束,以确保稳定的更新并避免行为的剧烈变化。
个术语
广义优势估计
通过多步估计器的加权平均来组合偏差和方差的优势估计方法,为学习提供最佳权衡。
个术语
Policy Gradient Theorem
提供关于策略参数的预期回报的梯度分析表达式的基本定理,为方法奠定理论基础。
个术语
Return-to-Go
从给定时间步开始的未来奖励的折扣总和,用作策略梯度算法中的梯度估计器。
🔍