🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📂
个子类别

随机马尔可夫决策过程

MDP,其中转移和奖励遵循概率分布,模拟环境不确定性。

17 个术语
📂
个子类别

强化学习中的蒙特卡洛方法

利用重复随机采样估计随机环境中状态-动作值的算法

14 个术语
📂
个子类别

随机策略

返回动作概率分布而非确定性动作的策略

11 个术语
📂
个子类别

贝叶斯强化学习

利用概率分布处理模型参数不确定性的方法

9 个术语
📂
个子类别

随机多臂老虎机

探索-利用问题,其中每个臂具有未知的随机奖励分布。

7 个术语
📂
个子类别

强化学习中的自举方法

利用重采样量化价值估计中不确定性的技术

15 个术语
📂
个子类别

用于强化学习的高斯过程

利用高斯过程对价值函数或转移函数中的不确定性进行建模。

10 个术语
📂
个子类别

随机强化学习中的集成方法

结合多个估计器以捕捉学习中的认知不确定性。

19 个术语
📂
个子类别

分布式强化学习

学习回报的完整分布,而不仅仅是其数学期望。

5 个术语
📂
个子类别

分位数回归深度强化学习

分布式强化学习的一种特定方法,利用分位数回归对不确定性进行建模。

8 个术语
📂
个子类别

部分可观测随机马尔可夫决策过程

具有部分观测的随机马尔可夫决策过程的扩展,增加了状态的不确定性。

8 个术语
📂
个子类别

强化学习中的随机优化

考虑梯度和更新中噪声和不确定性的优化方法

10 个术语
🔍

未找到结果