策略梯度方法 - AI 术语表

📖

个术语

策略梯度

一种直接优化方法，通过跟随期望回报的梯度来调整策略参数，允许在不需环境模型的情况下学习随机策略。

📖

个术语

REINFORCE算法

基础策略梯度算法，使用梯度的蒙特卡洛估计根据完全观察到的回合来更新策略参数。

📖

个术语

演员-评论家方法

混合方法，结合了学习策略的演员和估计价值函数的评论家，减少了策略梯度估计的方差。

📖

个术语

优势函数

衡量在给定状态下某个行动相对于平均行动的优势度，计算为Q函数与V函数的差值以减少梯度方差。

📖

个术语

近端策略优化(PPO)

通过限制更新使其接近先前策略来优化策略的算法，使用截断的目标函数确保学习稳定性。

📖

个术语

信任区域策略优化(TRPO)

通过在由连续策略之间的KL散度定义的信任区域内优化策略来保证性能单调改进的方法。

📖

个术语

自然策略梯度

策略梯度的变体，使用费舍尔度量进行参数化不变的更新，保证更稳定和有效的收敛。

📖

个术语

策略网络

参数化的神经网络，表示策略π(a|s; θ)，根据当前状态生成行动的条件概率分布。

📖

个术语

蒙特卡罗策略梯度

一种梯度估计技术，使用完整轨迹计算回报，提供无偏但高方差的估计。

📖

个术语

基线函数

从回报中减去的函数，用于在不引入偏置的情况下减少梯度估计的方差，通常是状态值函数。

📖

个术语

重要性采样

允许使用旧策略收集的数据来更新新策略的技术，通过根据策略概率比率对样本进行加权。

📖

个术语

熵正则化

在目标函数中添加熵项，通过惩罚过于确定的策略来鼓励探索，提高学习的鲁棒性。

📖

个术语

确定性策略梯度

策略梯度在连续动作空间的扩展，其中策略是确定性的，在高维环境中特别有效。

📖

个术语

随机策略

由动作概率分布π(a|s)表示的策略，允许内在探索，对策略梯度方法至关重要。

📖

个术语

KL散度约束

限制连续策略之间的KL散度的约束，以确保稳定的更新并避免行为的剧烈变化。

📖

个术语

广义优势估计

通过多步估计器的加权平均来组合偏差和方差的优势估计方法，为学习提供最佳权衡。

📖

个术语

Policy Gradient Theorem

提供关于策略参数的预期回报的梯度分析表达式的基本定理，为方法奠定理论基础。

📖

个术语

Return-to-Go

从给定时间步开始的未来奖励的折扣总和，用作策略梯度算法中的梯度估计器。

AI 词汇表