批量约束Q学习（BCQ）

📖

術語

批量约束Q学习（BCQ）

一种离线强化学习算法，通过约束策略使其接近训练数据集中观察到的动作，以避免外推误差。BCQ使用动作生成器模型生成与批次中动作相似的动作，同时探索轻微的变化。

📖

術語

分布偏移

学习策略访问的状态-动作分布与离线数据集的分布显著不同的现象。这种偏移可能导致价值估计偏差，并在部署时导致性能下降。

📖

術語

离线强化学习

一种学习范式，智能体仅从预先收集的固定数据集中学习，无需与环境交互。当实时探索成本高昂或危险时，这种方法至关重要。

📖

術語

行为克隆

一种监督学习技术，直接从示范数据中模仿专家的动作，而不使用奖励信号。虽然简单，但这种方法在部署时可能遭受级联误差累积的问题。

📖

術語

隐式Q学习

一种通过避免直接评估分布外动作来隐式学习Q函数的方法。IQL将学习表述为期望分位数学习问题，以更好地处理离线数据中的不确定性。

📖

術語

分布外动作

学习策略生成的在训练数据集中未出现或很少出现的动作。这些动作在离线强化学习中构成重大风险，因为它们的价值无法可靠估计。

📖

術語

策略约束

限制学习策略生成与离线数据批次中动作相似的机制。这种约束可以通过惩罚、散度或条件生成模型来实现。

📖

術語

扰动模型

BCQ的一个组件，用于在行为动作周围生成变化，以局部探索动作空间。该模型向观察到的动作添加受控噪声，同时确保其可行性。

📖

術語

价值函数估计

从离线数据中估计Q值的过程，同时考虑由于缺乏探索可能带来的偏差。现代方法使用保守低估技术来避免过度优化。

📖

術語

批量强化学习

强化学习的框架，其中智能体拥有固定的转换批次，并且必须在没有额外交互的情况下学习最优策略。这种背景对算法施加了特定约束以避免发散。

📖

術語

安全约束

对离线策略施加的限制，以确保生成的动作保持在状态-动作空间的安全区域内。这些约束在机器人或医疗等应用中至关重要。

📖

術語

动作重复

离线强化学习中使用的策略，通过重复与数据中观察到的类似动作来提高稳定性。这种技术降低了生成全新且潜在危险动作的风险。

📖

術語

不确定性估计

对批次中未观察到的动作价值估计相关不确定性的量化。准确的不确定性估计允许惩罚分布外动作并提高鲁棒性。

📖

術語

基于模型的强化学习

从离线数据中学习环境动态模型以生成合成经验的方法。在离线环境中，必须谨慎使用此模型以避免误差传播。

📖

術語

策略评估

仅使用离线数据而不与环境交互来评估策略性能的阶段。此步骤对于在部署前验证学习结果至关重要。

📖

術語

策略改进

使用从离线数据批次计算出的价值估计来迭代改进策略的过程。改进必须遵守分布约束以保持有效性。

📖

術語

Bootstrapping Error

当策略使用其自身的价值估计进行改进时累积的误差，导致偏离数据支持范围。离线方法使用特定技术来控制这种偏差。

AI 詞彙表