数据聚合DAgger - AI 术语表

📖

个术语

DAgger（数据集聚合）

一种模仿学习算法，通过在当前策略访问的状态上查询专家来迭代收集数据。这种方法减少了训练分布和部署分布之间的差距。

📖

个术语

数据聚合

收集和组合来自不同来源或学习迭代的多个数据集的过程。在DAgger中，这有助于逐步提高所学策略的鲁棒性。

📖

个术语

迭代收集

在多个连续周期中进行数据收集的方法论，每个周期都利用前一周期的信息。这种方法允许持续改进策略并探索新状态。

📖

个术语

行为策略

在DAgger中数据收集期间智能体遵循的动作策略或概率分布。它随迭代过程发展，逐渐接近最优策略。

📖

个术语

状态分布

智能体在执行过程中可能访问的状态的概率集合。DAgger试图将此分布与实际部署中遇到的分布对齐。

📖

个术语

分布偏差

训练数据分布与生产部署中遇到的分布之间的差异。DAgger通过在当前策略实际访问的状态上收集数据来减少这种偏差。

📖

个术语

错误纠正

当智能体的当前策略犯错时，专家提供正确动作的过程。这些纠正措施作为新的训练数据来改进策略。

📖

个术语

专家查询

从人类专家或系统请求智能体访问的特定状态的最优动作的机制。这些查询对于生成高质量训练数据至关重要。

📖

个术语

访问的状态

智能体在执行其当前策略时所达到的特定环境配置或状态。在DAgger中，这些状态成为专家需要回答的问题。

📖

个术语

当前策略

智能体决策策略的当前版本，在DAgger算法的每次迭代中不断进化。它用于探索环境并识别需要专家纠正的状态。

📖

个术语

自适应聚合

DAgger的一种变体，动态调整专家行动与当前策略行动的比例。这种调整使得在学习过程中能够平衡探索和利用。

📖

个术语

反馈循环

当前策略的性能产生新状态，而这些状态又需要专家纠正的连续循环。这个迭代循环是DAgger中改进的基本机制。

📖

个术语

在线纠正

在智能体策略的实时执行过程中发生的专家干预过程。这些即时纠正有助于避免错误在轨迹中传播。

📖

个术语

轨迹分布

智能体遵循其当前策略生成的状态和行动序列集合。DAgger的目标是使这个分布与最优专家策略产生的分布保持一致。

📖

个术语

目标策略

智能体试图模仿的最优策略，通常由专家的示范表示。DAgger的目标是使学到的策略收敛到这个目标策略。

📖

个术语

渐进式聚合

一种数据累积策略，每次新的迭代都会向现有数据添加补充信息。这种方法确保对相关状态空间的覆盖逐渐增加。

📖

个术语

紧凑性误差

由于表示限制导致的学习策略与专家策略之间的性能差异。DAgger通过收集真实状态分布的数据来最小化此误差。

AI 词汇表