分层强化学习 - AI 术语表

📖

个术语

分层强化学习 (HRL)

分层强化学习是一种强化学习范式，它将策略结构化为多个层次，其中元策略控制专门的子策略，以模块化方式解决复杂任务。

📖

个术语

选项框架

由Sutton等人引入的形式化方法，将原子动作推广为时态选项，包括策略、启动条件和时内终止条件。

📖

个术语

元控制器

HRL中的高级策略，负责根据全局目标和环境的当前状态选择并激活适当的子策略。

📖

个术语

子控制器

在元控制器的监督下执行原始动作或特定技能的低级策略，以完成局部子任务。

📖

个术语

时态抽象

HRL中的基本原理，允许将动作序列分组为连贯的时态单元（选项），以减少学习的时间复杂性。

📖

个术语

封建强化学习

受封建制度启发的分层架构，其中高级管理者为低级工作者定义目标，工作者在本地优化其奖励。

📖

个术语

MAXQ框架

一种HRL方法，将分层策略的值分解为子任务的加性贡献，实现自动且可重用的问题分解。

📖

个术语

目标条件策略

由特定目标参数化的策略，允许代理学习可泛化的行为，这些行为可重用于不同的子目标。

📖

个术语

内在动机

基于新颖性、好奇心或掌握程度产生内部奖励的机制，用于指导层次化技能的自主探索。

📖

个术语

技能发现

自动识别和提取可重用行为（技能）的过程，通过与环境的交互进行，无需明确的外部监督。

📖

个术语

分层行动者-评论家（HAC）

结合多级行动者-评论家的HRL架构，其中每个级别同时学习其各自时间范围的策略和值函数。

📖

个术语

分层深度Q网络（hDQN）

DQN的分层扩展，为高层和低层策略使用独立的值网络，将预训练选项作为抽象动作。

📖

个术语

状态抽象

通过将相关相似观察分组来降低状态维度的技术，针对每个层次级别进行，提高学习效率。

📖

个术语

终止函数

确定选项何时应停止并将控制权交还给上级的函数，对于层次级别之间的时间协调至关重要。

📖

个术语

启动函数

定义选项可以激活的条件的函数，确保子策略仅在适当状态下执行。

📖

个术语

选项策略

从可用选项而非原始动作中选择的高级策略，构成HRL系统的决策核心。

📖

个术语

后见之明经验回放(HER)

一种通过将失败重新解释为替代目标的成功来增强过去经验的技术，在分层框架中特别有效。

📖

个术语

子目标发现

自动识别相关中间状态的过程，这些状态作为决策层次结构之间的自然过渡点。

📖

个术语

分层策略梯度

一种适用于分层策略的梯度优化方法，同时通过多个决策层级传播梯度。

📖

个术语

选项-评价架构

端到端框架，通过梯度下降同时学习选项内策略、终止条件和选项上的策略。

AI 词汇表