AI 词汇表
人工智能完整词典
DAgger(数据集聚合)
一种模仿学习算法,通过在当前策略访问的状态上查询专家来迭代收集数据。这种方法减少了训练分布和部署分布之间的差距。
数据聚合
收集和组合来自不同来源或学习迭代的多个数据集的过程。在DAgger中,这有助于逐步提高所学策略的鲁棒性。
迭代收集
在多个连续周期中进行数据收集的方法论,每个周期都利用前一周期的信息。这种方法允许持续改进策略并探索新状态。
行为策略
在DAgger中数据收集期间智能体遵循的动作策略或概率分布。它随迭代过程发展,逐渐接近最优策略。
状态分布
智能体在执行过程中可能访问的状态的概率集合。DAgger试图将此分布与实际部署中遇到的分布对齐。
分布偏差
训练数据分布与生产部署中遇到的分布之间的差异。DAgger通过在当前策略实际访问的状态上收集数据来减少这种偏差。
错误纠正
当智能体的当前策略犯错时,专家提供正确动作的过程。这些纠正措施作为新的训练数据来改进策略。
专家查询
从人类专家或系统请求智能体访问的特定状态的最优动作的机制。这些查询对于生成高质量训练数据至关重要。
访问的状态
智能体在执行其当前策略时所达到的特定环境配置或状态。在DAgger中,这些状态成为专家需要回答的问题。
当前策略
智能体决策策略的当前版本,在DAgger算法的每次迭代中不断进化。它用于探索环境并识别需要专家纠正的状态。
自适应聚合
DAgger的一种变体,动态调整专家行动与当前策略行动的比例。这种调整使得在学习过程中能够平衡探索和利用。
反馈循环
当前策略的性能产生新状态,而这些状态又需要专家纠正的连续循环。这个迭代循环是DAgger中改进的基本机制。
在线纠正
在智能体策略的实时执行过程中发生的专家干预过程。这些即时纠正有助于避免错误在轨迹中传播。
轨迹分布
智能体遵循其当前策略生成的状态和行动序列集合。DAgger的目标是使这个分布与最优专家策略产生的分布保持一致。
目标策略
智能体试图模仿的最优策略,通常由专家的示范表示。DAgger的目标是使学到的策略收敛到这个目标策略。
渐进式聚合
一种数据累积策略,每次新的迭代都会向现有数据添加补充信息。这种方法确保对相关状态空间的覆盖逐渐增加。
紧凑性误差
由于表示限制导致的学习策略与专家策略之间的性能差异。DAgger通过收集真实状态分布的数据来最小化此误差。