🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

分层强化学习 (HRL)

分层强化学习是一种强化学习范式,它将策略结构化为多个层次,其中元策略控制专门的子策略,以模块化方式解决复杂任务。

📖
个术语

选项框架

由Sutton等人引入的形式化方法,将原子动作推广为时态选项,包括策略、启动条件和时内终止条件。

📖
个术语

元控制器

HRL中的高级策略,负责根据全局目标和环境的当前状态选择并激活适当的子策略。

📖
个术语

子控制器

在元控制器的监督下执行原始动作或特定技能的低级策略,以完成局部子任务。

📖
个术语

时态抽象

HRL中的基本原理,允许将动作序列分组为连贯的时态单元(选项),以减少学习的时间复杂性。

📖
个术语

封建强化学习

受封建制度启发的分层架构,其中高级管理者为低级工作者定义目标,工作者在本地优化其奖励。

📖
个术语

MAXQ框架

一种HRL方法,将分层策略的值分解为子任务的加性贡献,实现自动且可重用的问题分解。

📖
个术语

目标条件策略

由特定目标参数化的策略,允许代理学习可泛化的行为,这些行为可重用于不同的子目标。

📖
个术语

内在动机

基于新颖性、好奇心或掌握程度产生内部奖励的机制,用于指导层次化技能的自主探索。

📖
个术语

技能发现

自动识别和提取可重用行为(技能)的过程,通过与环境的交互进行,无需明确的外部监督。

📖
个术语

分层行动者-评论家(HAC)

结合多级行动者-评论家的HRL架构,其中每个级别同时学习其各自时间范围的策略和值函数。

📖
个术语

分层深度Q网络(hDQN)

DQN的分层扩展,为高层和低层策略使用独立的值网络,将预训练选项作为抽象动作。

📖
个术语

状态抽象

通过将相关相似观察分组来降低状态维度的技术,针对每个层次级别进行,提高学习效率。

📖
个术语

终止函数

确定选项何时应停止并将控制权交还给上级的函数,对于层次级别之间的时间协调至关重要。

📖
个术语

启动函数

定义选项可以激活的条件的函数,确保子策略仅在适当状态下执行。

📖
个术语

选项策略

从可用选项而非原始动作中选择的高级策略,构成HRL系统的决策核心。

📖
个术语

后见之明经验回放(HER)

一种通过将失败重新解释为替代目标的成功来增强过去经验的技术,在分层框架中特别有效。

📖
个术语

子目标发现

自动识别相关中间状态的过程,这些状态作为决策层次结构之间的自然过渡点。

📖
个术语

分层策略梯度

一种适用于分层策略的梯度优化方法,同时通过多个决策层级传播梯度。

📖
个术语

选项-评价架构

端到端框架,通过梯度下降同时学习选项内策略、终止条件和选项上的策略。

🔍

未找到结果