强化学习中的随机优化

📖

个术语

随机策略梯度

一种直接优化策略的方法，利用基于采样轨迹的梯度估计，能够处理连续和离散的动作空间。

📖

个术语

随机演员-评论家

一种混合架构，结合了学习策略的随机演员和估计价值函数的评论家，以减少梯度估计的方差。

📖

个术语

自然梯度

一种遵循由费雪信息矩阵定义的参数空间几何结构的优化方法，天然适用于强化学习中的随机问题。

📖

个术语

随机梯度下降

一种迭代优化算法，利用在数据小批量上计算出的带噪声梯度估计来更新模型参数。

📖

个术语

Robbins-Monro 算法

随机逼近方法的奠基者，使用递减的学习步长以保证在噪声环境下收敛到驻点。

📖

个术语

随机逼近

在噪声存在情况下的优化理论框架，为使用带噪声估计的学习算法提供收敛性保证。

📖

个术语

强化学习中的重要性采样

一种允许使用旧策略收集的数据来训练新策略的技术，通过密度比率对样本进行加权。

📖

个术语

KL 散度正则化

一种通过 Kullback-Leibler 散度正则化当前策略与先前策略之间距离的约束，防止策略发生过于剧烈的变化。

📖

个术语

策略噪声注入

一种探索策略，直接向策略的参数或输出添加随机噪声，以便在优化过程中保持探索。

📖

个术语

强化学习中的随机神经网络

在参数或激活中引入不确定性的神经网络，被用作随机策略以对复杂的动作分布进行建模。

AI 词汇表