AI 詞彙表
人工智能完整詞典
批量约束Q学习(BCQ)
一种离线强化学习算法,通过约束策略使其接近训练数据集中观察到的动作,以避免外推误差。BCQ使用动作生成器模型生成与批次中动作相似的动作,同时探索轻微的变化。
分布偏移
学习策略访问的状态-动作分布与离线数据集的分布显著不同的现象。这种偏移可能导致价值估计偏差,并在部署时导致性能下降。
离线强化学习
一种学习范式,智能体仅从预先收集的固定数据集中学习,无需与环境交互。当实时探索成本高昂或危险时,这种方法至关重要。
行为克隆
一种监督学习技术,直接从示范数据中模仿专家的动作,而不使用奖励信号。虽然简单,但这种方法在部署时可能遭受级联误差累积的问题。
隐式Q学习
一种通过避免直接评估分布外动作来隐式学习Q函数的方法。IQL将学习表述为期望分位数学习问题,以更好地处理离线数据中的不确定性。
分布外动作
学习策略生成的在训练数据集中未出现或很少出现的动作。这些动作在离线强化学习中构成重大风险,因为它们的价值无法可靠估计。
策略约束
限制学习策略生成与离线数据批次中动作相似的机制。这种约束可以通过惩罚、散度或条件生成模型来实现。
扰动模型
BCQ的一个组件,用于在行为动作周围生成变化,以局部探索动作空间。该模型向观察到的动作添加受控噪声,同时确保其可行性。
价值函数估计
从离线数据中估计Q值的过程,同时考虑由于缺乏探索可能带来的偏差。现代方法使用保守低估技术来避免过度优化。
批量强化学习
强化学习的框架,其中智能体拥有固定的转换批次,并且必须在没有额外交互的情况下学习最优策略。这种背景对算法施加了特定约束以避免发散。
安全约束
对离线策略施加的限制,以确保生成的动作保持在状态-动作空间的安全区域内。这些约束在机器人或医疗等应用中至关重要。
动作重复
离线强化学习中使用的策略,通过重复与数据中观察到的类似动作来提高稳定性。这种技术降低了生成全新且潜在危险动作的风险。
不确定性估计
对批次中未观察到的动作价值估计相关不确定性的量化。准确的不确定性估计允许惩罚分布外动作并提高鲁棒性。
基于模型的强化学习
从离线数据中学习环境动态模型以生成合成经验的方法。在离线环境中,必须谨慎使用此模型以避免误差传播。
策略评估
仅使用离线数据而不与环境交互来评估策略性能的阶段。此步骤对于在部署前验证学习结果至关重要。
策略改进
使用从离线数据批次计算出的价值估计来迭代改进策略的过程。改进必须遵守分布约束以保持有效性。
Bootstrapping Error
当策略使用其自身的价值估计进行改进时累积的误差,导致偏离数据支持范围。离线方法使用特定技术来控制这种偏差。