🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

分位数回归深度强化学习

一种深度强化学习方法,它对预期回报的完整分布进行建模,而不仅仅是其期望值,利用分位数回归来估计价值分布的分位数。

📖
个术语

DRL中的Wasserstein距离

一种用于分布式深度强化学习中的分布距离度量,用于衡量预测回报分布与目标回报分布之间的差异性,从而促进更好的学习稳定性。

📖
个术语

价值分布建模

一种近似每个状态-动作对预期回报完整分布(而不仅仅是期望值)的技术,旨在捕捉环境固有的不确定性和变异性。

📖
个术语

Expectile回归强化学习

分布式深度强化学习的一种变体,使用Expectile回归(期望分位数回归)而非分位数回归,在回报分布估计中提供可控的不对称性,特别适用于风险敏感的情境。

📖
个术语

概率回报分布

对每个状态-动作对预期未来回报的完整概率表示,不仅表征平均值,还表征方差、偏度和其他统计矩。

📖
个术语

分布式投影贝尔曼更新

一种更新过程,将目标回报分布投影到支持的分布空间上,确保分布式框架下学习的一致性和稳定性。

📖
个术语

DRL中的尾部风险评估

分布式深度强化学习通过分析回报分布的尾部来定量评估极端风险(尾部风险)的能力,这对关键应用至关重要。

📖
个术语

分位数采样策略

在QR-DRL(分位数回归深度强化学习)框架下的分位数采样技术,包括均匀采样、自适应采样或基于重要性的采样,以优化分布学习的效率。

🔍

未找到结果