AI 词汇表
人工智能完整词典
分层强化学习 (HRL)
分层强化学习是一种强化学习范式,它将策略结构化为多个层次,其中元策略控制专门的子策略,以模块化方式解决复杂任务。
选项框架
由Sutton等人引入的形式化方法,将原子动作推广为时态选项,包括策略、启动条件和时内终止条件。
元控制器
HRL中的高级策略,负责根据全局目标和环境的当前状态选择并激活适当的子策略。
子控制器
在元控制器的监督下执行原始动作或特定技能的低级策略,以完成局部子任务。
时态抽象
HRL中的基本原理,允许将动作序列分组为连贯的时态单元(选项),以减少学习的时间复杂性。
封建强化学习
受封建制度启发的分层架构,其中高级管理者为低级工作者定义目标,工作者在本地优化其奖励。
MAXQ框架
一种HRL方法,将分层策略的值分解为子任务的加性贡献,实现自动且可重用的问题分解。
目标条件策略
由特定目标参数化的策略,允许代理学习可泛化的行为,这些行为可重用于不同的子目标。
内在动机
基于新颖性、好奇心或掌握程度产生内部奖励的机制,用于指导层次化技能的自主探索。
技能发现
自动识别和提取可重用行为(技能)的过程,通过与环境的交互进行,无需明确的外部监督。
分层行动者-评论家(HAC)
结合多级行动者-评论家的HRL架构,其中每个级别同时学习其各自时间范围的策略和值函数。
分层深度Q网络(hDQN)
DQN的分层扩展,为高层和低层策略使用独立的值网络,将预训练选项作为抽象动作。
状态抽象
通过将相关相似观察分组来降低状态维度的技术,针对每个层次级别进行,提高学习效率。
终止函数
确定选项何时应停止并将控制权交还给上级的函数,对于层次级别之间的时间协调至关重要。
启动函数
定义选项可以激活的条件的函数,确保子策略仅在适当状态下执行。
选项策略
从可用选项而非原始动作中选择的高级策略,构成HRL系统的决策核心。
后见之明经验回放(HER)
一种通过将失败重新解释为替代目标的成功来增强过去经验的技术,在分层框架中特别有效。
子目标发现
自动识别相关中间状态的过程,这些状态作为决策层次结构之间的自然过渡点。
分层策略梯度
一种适用于分层策略的梯度优化方法,同时通过多个决策层级传播梯度。
选项-评价架构
端到端框架,通过梯度下降同时学习选项内策略、终止条件和选项上的策略。