元强化学习

📖

个术语

一种强化学习方法，智能体学会学习，获取元知识以快速适应新任务，仅需少量经验。

📖

个术语

元学习器

优化学习过程的算法或模型，以获得快速适应训练期间未见新任务的能力。

📖

个术语

任务特定策略

适应特定任务的强化学习策略，由元学习器从少量经验中快速生成。

📖

个术语

近端元策略优化 (ProMP)

将PPO扩展到元学习的元强化学习算法，优化能够生成每个任务特定策略的元策略。

📖

个术语

元世界

评估元强化学习算法的标准基准和环境，在具有多样化任务分布的机器人操纵任务上进行测试。

📖

个术语

RL² (强化学习平方)

元强化学习框架，其中强化学习算法本身由另一个RL过程学习，将历史信息整合到智能体的状态中。

📖

个术语

元经验回放

按任务组织的经验缓冲区技术，便于快速适应和不同任务间的知识转移。

📖

个术语

元策略梯度

计算相对于元参数梯度的优化算法，以改善任务分布上的预期性能。

📖

个术语

Hindsight Experience Replay (HER) 在元强化学习中的应用

将HER扩展到元强化学习中，其中经验通过不同目标重新解释，以提高采样效率和跨任务泛化能力。

📖

个术语

元强化学习中的课程学习

通过渐进式地按照复杂度递增的顺序安排训练任务，以提高元学习器的适应能力。

📖

个术语

元模仿学习

结合元学习和模仿学习，使智能体能够用少量示例快速学习模仿新的演示。

📖

个术语

元离策略评估

仅使用预先收集的离策略数据来评估元学习策略在新任务上的性能。

AI 词汇表