分位数回归深度强化学习

📖

个术语

一种深度强化学习方法，它对预期回报的完整分布进行建模，而不仅仅是其期望值，利用分位数回归来估计价值分布的分位数。

📖

个术语

一种用于分布式深度强化学习中的分布距离度量，用于衡量预测回报分布与目标回报分布之间的差异性，从而促进更好的学习稳定性。

📖

个术语

一种近似每个状态-动作对预期回报完整分布（而不仅仅是期望值）的技术，旨在捕捉环境固有的不确定性和变异性。

📖

个术语

分布式深度强化学习的一种变体，使用Expectile回归（期望分位数回归）而非分位数回归，在回报分布估计中提供可控的不对称性，特别适用于风险敏感的情境。

📖

个术语

对每个状态-动作对预期未来回报的完整概率表示，不仅表征平均值，还表征方差、偏度和其他统计矩。

📖

个术语

一种更新过程，将目标回报分布投影到支持的分布空间上，确保分布式框架下学习的一致性和稳定性。

📖

个术语

分布式深度强化学习通过分析回报分布的尾部来定量评估极端风险（尾部风险）的能力，这对关键应用至关重要。

📖

个术语

在QR-DRL（分位数回归深度强化学习）框架下的分位数采样技术，包括均匀采样、自适应采样或基于重要性的采样，以优化分布学习的效率。

AI 词汇表