基于模型的深度强化学习

📖

術語

基于模型的深度强化学习

一种强化学习方法，智能体构建环境的内部模型来模拟和规划其行动，从而减少与环境的实际交互需求。

📖

術語

世界模型

环境的完整神经表示，同时学习系统动态、潜在状态和奖励，使智能体能够在模拟空间中进行推理。

📖

術語

模型预测控制(MPC)

使用学习到的模型在有限时间范围内优化未来行动序列的控制策略，在每个时间步连续重新评估最优计划。

📖

術語

Dyna架构

集成直接和间接强化学习的框架，其中模型生成的模拟体验补充真实数据以加速学习。

📖

術語

增强想象智能体(I2A)

结合标准策略与想象路径的智能体架构，使用环境模型在做出决定前预期未来后果。

📖

術語

PlaNet

在紧凑的潜在空间中学习动态模型的算法，完全通过规划解决连续控制任务，无需显式策略。

📖

術語

Dreamer

在梦境空间中学习世界的智能体，在想象的轨迹上训练以完全潜在的方式学习行为和价值。

📖

術語

MuZero

革命性算法，在没有环境规则先验知识的情况下同时学习模型、策略和价值，结合蒙特卡洛树搜索和深度学习。

📖

術語

潜在空间动力学

在压缩的表示空间中对状态的时间演变进行建模，其中动态比原始观察空间中更简单、更稳定。

📖

術語

模型不确定性

环境模型不确定性的量化，对于识别模型可靠的区域和需要更多探索或实际交互的区域至关重要。

📖

術語

模型集成

使用多个独立环境模型来估计认知不确定性并提高预测鲁棒性的技术，用于规划。

📖

術語

基于学习模型的规划

使用学习模型评估不同未来动作序列并根据奖励预测选择最优解的顺序搜索过程。

📖

術語

基于模型的价值扩展 (MVE)

使用模型在真实视界之外外推回报的技术，结合真实和模拟数据以更准确地估计长期价值。

📖

術語

基于模型的策略优化 (MBPO)

混合算法，使用短期模型生成合成数据，同时维护真实数据集以稳定策略学习。

📖

術語

轨迹优化

使用模型梯度直接优化状态-动作序列以找到最优轨迹的技术，对连续系统特别有效。

📖

術語

可微分物理引擎

使用可微分操作实现的物理模拟器，允许梯度在模拟中传播，用于基于模型的强化学习。

📖

術語

前向动力学模型

一个预测模型，学习状态转移 s_{t+1} = f(s_t, a_t)，用于预测环境中行为的未来后果。

📖

術語

逆向动力学模型

学习推断从一个状态到另一个状态的动作 a_t = f^{-1}(s_t, s_{t+1}) 的模型，对于模仿学习和动作表示非常有用。

📖

術語

基于模型的探索

一种探索策略，利用模型的不确定性来引导智能体走向模型置信度较低的状态，促进学习更完整的表示。

AI 詞彙表