AI 詞彙表
人工智能完整詞典
行为克隆
一种模仿学习技术,其中智能体通过最小化其预测与提供的演示之间的误差,直接学习复制专家的行为。这种方法将学习问题转化为标准的监督学习问题。
模仿学习
一种机器学习范式,其中智能体通过观察和复制专家行为来获取技能,无需显式奖励。该方法通过利用现有知识来加速学习过程。
动作策略
将每个状态映射到可能动作概率分布的数学函数,决定了智能体的行为。在行为克隆中,此策略直接从专家演示中学习。
专家演示
由人类专家或最优系统提供的轨迹或状态-动作示例集合,用作模仿学习的训练数据。这些演示封装了需要复制的最优策略。
预测误差
量化智能体在相同状态下预测的动作与专家动作之间差异的度量,通常通过均方误差或KL散度计算。最小化此误差是行为克隆的主要目标。
监督学习
模型在标记的输入-输出对上进行训练的学习框架,在行为克隆中用于学习专家策略。这种方法将模仿问题转化为分类或回归任务。
动作分布
给定状态下可能动作的概率表示,捕获专家的偏好和不确定性。行为克隆旨在复制此分布,而不是单一的确定性动作。
泛化能力
克隆模型在训练期间未见过状态下正确执行的能力,对行为克隆的稳健应用至关重要。良好的泛化可避免对特定演示的过拟合。
过拟合
模型完美学习训练示例但无法泛化到新情况的现象,限制了行为克隆的有效性。这个问题因轨迹中数据的相关性而加剧。
离线学习
智能体仅从固定数据集学习而不与环境交互的范式,是行为克隆的主要特征。这种方法消除了主动探索相关的成本和风险。
错误纠正
行为克隆系统在犯错后恢复的能力,通常因对错误状态的缺乏经验而受限。这种限制促使使用与强化学习结合的混合技术。
强化学习
智能体通过试错最大化累积奖励的学习范式,通常与行为克隆结合以提高鲁棒性。这种方法能够纠正演示中不存在的错误。
逆向模仿
从专家演示中推断奖励函数或潜在意图的过程,是直接行为克隆的替代方案。这种方法能提供更好的泛化能力但实施更为复杂。
模仿强化学习
结合模仿学习和强化学习以获得两者优势的算法家族,使用演示作为探索指导。这些方法提高了鲁棒性和错误纠正能力。
策略偏离
学习到的策略在与环境交互时逐渐偏离专家策略的现象,损害性能。这种偏离是纯行为克隆的主要限制。
学习稳定性
学习算法以可预测方式收敛到满意解而不振荡或发散的属性,在行为克隆系统中至关重要。稳定性取决于演示的质量和覆盖范围。
知识迁移
将通过行为克隆学到的技能应用到相似但不同的任务或环境中的能力,对可扩展性至关重要。成功的迁移需要对状态有鲁棒且不变的表达。