AI 词汇表
人工智能完整词典
在线策略数据收集
智能体遵循其当前策略收集示例的过程,允许识别与专家行为的差异以进行有针对性的调整。
分布漂移
智能体策略偏离专家访问状态分布的现象,使初始模仿数据对学习变得不那么相关。
迭代数据聚合
将新收集的专家数据与现有数据集逐步合并以丰富策略学习的方法论。
数据混合
结合初始模仿数据和通过DAgger收集的数据,以创建更健壮和代表性的训练集的策略。
专家反馈循环
专家对智能体访问的状态提供纠正性动作的交互式循环,直接促进每次迭代的策略改进。
策略稳定性
衡量智能体在面对训练数据中轻微变化时行为一致性的度量,是DAgger算法的关键目标。
压缩误差
当聚合数据集未能充分捕获正在学习策略访问状态的多样性时引入的偏差。
收集范围
智能体执行其当前策略的步数或回合数,之后再次请求专家干预以收集数据。
模仿强化学习 (IRL)
一种学习范式,其中智能体通过模仿专家来学习任务,通常与强化学习技术相结合,以泛化到演示数据之外。
行为偏差 (Behavioral Cloning Bias)
静态模仿的固有局限,即智能体无法从初始数据集中不存在的错误中恢复,而DAgger算法正是为了解决这一问题。
行为策略 (Behavior Policy)
在数据收集阶段,智能体遵循的策略,该策略随后被用于引导专家关注最需要纠正的关键状态。
替代损失函数
用于训练模仿模型的目标函数,通常是衡量智能体动作与专家动作之间差异的分类或回归误差。
策略泛化
学习到的策略在数据收集期间未见过的状态上可靠执行的能力,这种能力因DAgger算法引入的多样性而得到提升。
数据收集成本
专家提供注释所需的时间或计算资源,这是决定DAgger等算法实际效率的关键因素。
方差降低
数据聚合对稳定梯度估计的影响,从而使策略的收敛更快、更可靠。
专家动作空间
专家可以演示的所有可能动作的集合,它定义了智能体通过DAgger算法能学习模仿的范围界限。
修正轨迹
状态和动作序列,其中专家干预取代了智能体的动作,为策略创造了高质量的学习示例。
离线学习
在聚合数据集上训练模型的阶段,不与环境直接交互,这是DAgger方法的特征。
策略收敛
DAgger的连续迭代不再显著改善策略性能的点,表明数据集已足够完整。