强化学习中的自举方法

📖

个术语

强化学习中的自举法

一种用于强化学习的重采样技术，通过从同一数据样本创建多个估计来估计值函数的不确定性。

📖

个术语

自举值分布

通过聚合多个自举估计获得的值函数的概率表示，用于量化值预测的不确定性。

📖

个术语

加权自举法

一种根据相关性或时效性为自举样本分配权重的技术，以便在值估计中赋予信息量更大的经验更高的重要性。

📖

个术语

自举Q学习

经典Q学习的扩展，使用在不同自举样本上训练的多个Q值头来捕捉不确定性并改进探索。

📖

个术语

C51 (分类51)

一种分布式算法，将回报分布离散化为51个概率原子，使用自举技术来估计该表示的不确定性。

📖

个术语

IQN (隐式分位数网络)

一种直接学习回报分位数分布的网络架构，集成了自举机制以量化分位数预测的不确定性。

📖

个术语

QR-DQN (分位数回归DQN)

DQN的一种变体，在自举样本上使用分位数回归来学习动作值的完整分布，并进行不确定性量化。

📖

个术语

自举头网络

一种包含多个独立输出头的架构，这些头在不同的自举样本上训练，用于捕捉值预测中的不确定性。

📖

个术语

基于不确定性的探索

一种利用自助法估计来量化不确定性，并引导智能体走向环境中未知状态的探索策略。

📖

个术语

自助法集成

在不同的自助样本上训练多个模型，以形成一个预测集成，从而捕获学习过程中的变异性和不确定性的方法。

📖

个术语

Dropout作为自助法近似

一种在推理过程中使用Dropout作为自助法的有效近似的技术，用于在不训练多个模型的情况下快速估计不确定性。

📖

个术语

可信区间

源自自助分布的统计区间，用于以指定的置信概率量化价值估计的不确定性。

📖

个术语

自助法方差

量化自助估计之间离散度的指标，作为价值预测中认知不确定性的直接指标。

📖

个术语

自助法偏差

自助法方法可能引入的系统性偏差，需要像双重自助法这样的校正技术来获得无偏估计。

📖

个术语

序列自助法

适用于强化学习时序数据的变体，在重采样时保持序列依赖结构，以避免低估不确定性。

AI 词汇表