AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
期望值近似
强化学习(RL)中的一种传统方法,仅专注于估计未来回报的数学期望。这种方法忽略了回报分布的方差和高阶矩。
術語
分布式贝尔曼方程
贝尔曼方程的推广,它作用于随机分布而不是标量值。它描述了回报分布如何通过状态转移进行传播。
術語
风险敏感策略
一种不仅考虑期望,还考虑回报分布的方差或其他特征的动作策略。根据目标的不同,这些策略可以是风险厌恶的或风险寻求的。
術語
累积分布函数
给出随机变量取值小于或等于给定阈值的概率的数学函数。在分布式强化学习中,它代表累积回报的完整分布。
術語
矩匹配
一种试图匹配目标分布的统计矩(均值、方差等)的近似技术。它有时用于简化强化学习中分布的表示。
🔍