AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
子類別
随机马尔可夫决策过程
MDP,其中转移和奖励遵循概率分布,模拟环境不确定性。
17 術語
子類別
强化学习中的蒙特卡洛方法
利用重复随机采样估计随机环境中状态-动作值的算法
14 術語
子類別
随机策略
返回动作概率分布而非确定性动作的策略
11 術語
子類別
贝叶斯强化学习
利用概率分布处理模型参数不确定性的方法
9 術語
子類別
随机多臂老虎机
探索-利用问题,其中每个臂具有未知的随机奖励分布。
7 術語
子類別
强化学习中的自举方法
利用重采样量化价值估计中不确定性的技术
15 術語
子類別
用于强化学习的高斯过程
利用高斯过程对价值函数或转移函数中的不确定性进行建模。
10 術語
子類別
随机强化学习中的集成方法
结合多个估计器以捕捉学习中的认知不确定性。
19 術語
子類別
分布式强化学习
学习回报的完整分布,而不仅仅是其数学期望。
5 術語
子類別
分位数回归深度强化学习
分布式强化学习的一种特定方法,利用分位数回归对不确定性进行建模。
8 術語
子類別
部分可观测随机马尔可夫决策过程
具有部分观测的随机马尔可夫决策过程的扩展,增加了状态的不确定性。
8 術語
子類別
强化学习中的随机优化
考虑梯度和更新中噪声和不确定性的优化方法
10 術語
🔍