AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
基于模型的模仿学习
一种方法,智能体首先学习环境的动态模型,然后利用该模型来规划,并将从专家演示中模仿的行为推广到新情况。
个术语
动态模型
一种学习环境状态转换的数学表示,即从状态s执行动作a到达新状态s'的概率P(s'|s, a)。
个术语
反事实推理
一种推断专家奖励函数的方法,通过将演示轨迹与相近的反事实轨迹进行比较来识别专家的偏好。
个术语
基于模型的规划
使用学习到的动态模型和奖励模型来模拟不同的动作序列,并在不与真实环境直接交互的情况下选择最优策略的过程。
个术语
基于模型的泛化
基于模型的智能体通过其环境模型模拟假设场景,从而将模仿的行为适应到演示中未见的新情况的能力。
个术语
逆向强化学习 (IRL)
从专家的演示中推断其潜在奖励函数的过程,为智能体的强化学习训练提供密集的奖励信号。
个术语
时间反向传播 (BPTT)
用于训练循环动态模型的算法,其损失梯度是通过在模拟轨迹的时间步上反向传播误差来计算的。
个术语
轨迹优化
一类规划算法,它使用奖励模型和动态模型的梯度来迭代地改进整个轨迹,与基于价值的方法相对。
个术语
行为模仿学习 (BC)
一种监督学习方法,通过最小化智能体行为与专家行为在给定状态下的误差,直接建模专家策略π(a|s)。
个术语
BC-模型混合方法
结合行为模型用于直接模仿和环境模型用于规划的架构,两种贡献被融合以产生智能体的最终行为。
🔍