AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
随机策略梯度
一种直接优化策略的方法,利用基于采样轨迹的梯度估计,能够处理连续和离散的动作空间。
个术语
随机演员-评论家
一种混合架构,结合了学习策略的随机演员和估计价值函数的评论家,以减少梯度估计的方差。
个术语
自然梯度
一种遵循由费雪信息矩阵定义的参数空间几何结构的优化方法,天然适用于强化学习中的随机问题。
个术语
随机梯度下降
一种迭代优化算法,利用在数据小批量上计算出的带噪声梯度估计来更新模型参数。
个术语
Robbins-Monro 算法
随机逼近方法的奠基者,使用递减的学习步长以保证在噪声环境下收敛到驻点。
个术语
随机逼近
在噪声存在情况下的优化理论框架,为使用带噪声估计的学习算法提供收敛性保证。
个术语
强化学习中的重要性采样
一种允许使用旧策略收集的数据来训练新策略的技术,通过密度比率对样本进行加权。
个术语
KL 散度正则化
一种通过 Kullback-Leibler 散度正则化当前策略与先前策略之间距离的约束,防止策略发生过于剧烈的变化。
个术语
策略噪声注入
一种探索策略,直接向策略的参数或输出添加随机噪声,以便在优化过程中保持探索。
个术语
强化学习中的随机神经网络
在参数或激活中引入不确定性的神经网络,被用作随机策略以对复杂的动作分布进行建模。
🔍