AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
子類別
保守Q学习(CQL)
一种通过惩罚高估的Q值来保持策略接近数据分布的方法。
18 術語
子類別
批量约束Q学习(BCQ)
该方法限制行动接近数据集中观察到的行为,以避免分布偏移。
17 術語
子類別
决策Transformer
将离线强化学习处理为序列到序列问题的Transformer架构。
11 術語
子類別
隐式Q学习(IQL)
一种无需显式最大操作符即可隐式学习Q函数的方法。
13 術語
子類別
基于模型的离线强化学习
利用学习到的环境模型来改进分布外采样的方法。
10 術語
子類別
离线到在线迁移学习
将离线学习成果有效迁移至在线环境的技术
6 術語
子類別
分布式离线强化学习
建模回报完整分布而非仅其数学期望的方法。
13 術語
子類別
安全离线强化学习
确保在仅基于静态数据学习的策略部署时的安全性方法。
11 術語
子類別
不确定性感知离线强化学习
量化认知不确定性的方法以避免分布外动作。
17 術語
子類別
轨迹变换器
一种通过学习状态-动作-奖励序列分布来生成完整轨迹的变换器模型。
6 術語
子類別
优势加权回归(AWR)
通过根据优势对回归进行加权以改进分布外动作选择的方法。
11 術語
子類別
离线多任务强化学习
基于共享批量数据集同时学习多个任务的范式
18 術語
🔍