🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

强化学习中的自举法

一种用于强化学习的重采样技术,通过从同一数据样本创建多个估计来估计值函数的不确定性。

📖
个术语

自举值分布

通过聚合多个自举估计获得的值函数的概率表示,用于量化值预测的不确定性。

📖
个术语

加权自举法

一种根据相关性或时效性为自举样本分配权重的技术,以便在值估计中赋予信息量更大的经验更高的重要性。

📖
个术语

自举Q学习

经典Q学习的扩展,使用在不同自举样本上训练的多个Q值头来捕捉不确定性并改进探索。

📖
个术语

C51 (分类51)

一种分布式算法,将回报分布离散化为51个概率原子,使用自举技术来估计该表示的不确定性。

📖
个术语

IQN (隐式分位数网络)

一种直接学习回报分位数分布的网络架构,集成了自举机制以量化分位数预测的不确定性。

📖
个术语

QR-DQN (分位数回归DQN)

DQN的一种变体,在自举样本上使用分位数回归来学习动作值的完整分布,并进行不确定性量化。

📖
个术语

自举头网络

一种包含多个独立输出头的架构,这些头在不同的自举样本上训练,用于捕捉值预测中的不确定性。

📖
个术语

基于不确定性的探索

一种利用自助法估计来量化不确定性,并引导智能体走向环境中未知状态的探索策略。

📖
个术语

自助法集成

在不同的自助样本上训练多个模型,以形成一个预测集成,从而捕获学习过程中的变异性和不确定性的方法。

📖
个术语

Dropout作为自助法近似

一种在推理过程中使用Dropout作为自助法的有效近似的技术,用于在不训练多个模型的情况下快速估计不确定性。

📖
个术语

可信区间

源自自助分布的统计区间,用于以指定的置信概率量化价值估计的不确定性。

📖
个术语

自助法方差

量化自助估计之间离散度的指标,作为价值预测中认知不确定性的直接指标。

📖
个术语

自助法偏差

自助法方法可能引入的系统性偏差,需要像双重自助法这样的校正技术来获得无偏估计。

📖
个术语

序列自助法

适用于强化学习时序数据的变体,在重采样时保持序列依赖结构,以避免低估不确定性。

🔍

未找到结果