🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

策略决策

定义在每种可能状态下应采取行动的策略或映射,代表强化学习过程中智能体的行为。

📖
个术语

多臂赌博机问题

顺序优化问题,智能体必须在奖励未知的多个选项中进行选择,以最大化随时间累积的奖励。

📖
个术语

累积奖励

智能体寻求最大化的未来预期奖励总和,通常使用折扣因子计算,对远期奖励赋予较小权重。

📖
个术语

SARSA算法

同策略强化学习算法,基于状态-动作-奖励-状态-动作序列更新Q值,与Q学习不同。

📖
个术语

深度Q网络

深度神经网络架构,用于在复杂状态空间中近似Q函数,结合深度学习和Q学习。

📖
个术语

深度强化学习

将深度神经网络集成到强化学习中的方法,用于处理高维状态或动作空间。

📖
个术语

ε-贪心策略

动作选择策略,以概率ε进行探索(选择随机动作),以概率1-ε进行利用(选择已知最佳动作)。

📖
个术语

策略优化

强化学习中的一类方法,直接优化策略而不通过价值函数,通常使用策略梯度技术。

📖
个术语

策略梯度算法

一种优化方法,直接根据预期奖励相对于策略参数的梯度来调整策略参数

📖
个术语

多智能体强化学习

强化学习的扩展,多个智能体在共享环境中同时学习,通常处于竞争或合作状态

📖
个术语

经验回放记忆

存储转换数据(状态、动作、奖励、下一状态)的数据结构,用于训练期间的重新采样,提高数据使用效率

📖
个术语

演员-评论家算法

结合了根据策略选择动作的演员和评估这些动作的评论家的架构,能够实现更稳定和高效的学习

🔍

未找到结果