基于模型的模仿学习

📖

个术语

基于模型的模仿学习

一种方法，智能体首先学习环境的动态模型，然后利用该模型来规划，并将从专家演示中模仿的行为推广到新情况。

📖

个术语

动态模型

一种学习环境状态转换的数学表示，即从状态s执行动作a到达新状态s'的概率P(s'|s, a)。

📖

个术语

反事实推理

一种推断专家奖励函数的方法，通过将演示轨迹与相近的反事实轨迹进行比较来识别专家的偏好。

📖

个术语

基于模型的规划

使用学习到的动态模型和奖励模型来模拟不同的动作序列，并在不与真实环境直接交互的情况下选择最优策略的过程。

📖

个术语

基于模型的泛化

基于模型的智能体通过其环境模型模拟假设场景，从而将模仿的行为适应到演示中未见的新情况的能力。

📖

个术语

逆向强化学习 (IRL)

从专家的演示中推断其潜在奖励函数的过程，为智能体的强化学习训练提供密集的奖励信号。

📖

个术语

时间反向传播 (BPTT)

用于训练循环动态模型的算法，其损失梯度是通过在模拟轨迹的时间步上反向传播误差来计算的。

📖

个术语

轨迹优化

一类规划算法，它使用奖励模型和动态模型的梯度来迭代地改进整个轨迹，与基于价值的方法相对。

📖

个术语

行为模仿学习 (BC)

一种监督学习方法，通过最小化智能体行为与专家行为在给定状态下的误差，直接建模专家策略π(a|s)。

📖

个术语

BC-模型混合方法

结合行为模型用于直接模仿和环境模型用于规划的架构，两种贡献被融合以产生智能体的最终行为。

AI 词汇表