AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
强化学习中的自举法
一种用于强化学习的重采样技术,通过从同一数据样本创建多个估计来估计值函数的不确定性。
个术语
自举值分布
通过聚合多个自举估计获得的值函数的概率表示,用于量化值预测的不确定性。
个术语
加权自举法
一种根据相关性或时效性为自举样本分配权重的技术,以便在值估计中赋予信息量更大的经验更高的重要性。
个术语
自举Q学习
经典Q学习的扩展,使用在不同自举样本上训练的多个Q值头来捕捉不确定性并改进探索。
个术语
C51 (分类51)
一种分布式算法,将回报分布离散化为51个概率原子,使用自举技术来估计该表示的不确定性。
个术语
IQN (隐式分位数网络)
一种直接学习回报分位数分布的网络架构,集成了自举机制以量化分位数预测的不确定性。
个术语
QR-DQN (分位数回归DQN)
DQN的一种变体,在自举样本上使用分位数回归来学习动作值的完整分布,并进行不确定性量化。
个术语
自举头网络
一种包含多个独立输出头的架构,这些头在不同的自举样本上训练,用于捕捉值预测中的不确定性。
个术语
基于不确定性的探索
一种利用自助法估计来量化不确定性,并引导智能体走向环境中未知状态的探索策略。
个术语
自助法集成
在不同的自助样本上训练多个模型,以形成一个预测集成,从而捕获学习过程中的变异性和不确定性的方法。
个术语
Dropout作为自助法近似
一种在推理过程中使用Dropout作为自助法的有效近似的技术,用于在不训练多个模型的情况下快速估计不确定性。
个术语
可信区间
源自自助分布的统计区间,用于以指定的置信概率量化价值估计的不确定性。
个术语
自助法方差
量化自助估计之间离散度的指标,作为价值预测中认知不确定性的直接指标。
个术语
自助法偏差
自助法方法可能引入的系统性偏差,需要像双重自助法这样的校正技术来获得无偏估计。
个术语
序列自助法
适用于强化学习时序数据的变体,在重采样时保持序列依赖结构,以避免低估不确定性。
🔍