AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
分位数回归深度强化学习
一种深度强化学习方法,它对预期回报的完整分布进行建模,而不仅仅是其期望值,利用分位数回归来估计价值分布的分位数。
个术语
DRL中的Wasserstein距离
一种用于分布式深度强化学习中的分布距离度量,用于衡量预测回报分布与目标回报分布之间的差异性,从而促进更好的学习稳定性。
个术语
价值分布建模
一种近似每个状态-动作对预期回报完整分布(而不仅仅是期望值)的技术,旨在捕捉环境固有的不确定性和变异性。
个术语
Expectile回归强化学习
分布式深度强化学习的一种变体,使用Expectile回归(期望分位数回归)而非分位数回归,在回报分布估计中提供可控的不对称性,特别适用于风险敏感的情境。
个术语
概率回报分布
对每个状态-动作对预期未来回报的完整概率表示,不仅表征平均值,还表征方差、偏度和其他统计矩。
个术语
分布式投影贝尔曼更新
一种更新过程,将目标回报分布投影到支持的分布空间上,确保分布式框架下学习的一致性和稳定性。
个术语
DRL中的尾部风险评估
分布式深度强化学习通过分析回报分布的尾部来定量评估极端风险(尾部风险)的能力,这对关键应用至关重要。
个术语
分位数采样策略
在QR-DRL(分位数回归深度强化学习)框架下的分位数采样技术,包括均匀采样、自适应采样或基于重要性的采样,以优化分布学习的效率。
🔍