🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

随机策略梯度

一种直接优化策略的方法,利用基于采样轨迹的梯度估计,能够处理连续和离散的动作空间。

📖
个术语

随机演员-评论家

一种混合架构,结合了学习策略的随机演员和估计价值函数的评论家,以减少梯度估计的方差。

📖
个术语

自然梯度

一种遵循由费雪信息矩阵定义的参数空间几何结构的优化方法,天然适用于强化学习中的随机问题。

📖
个术语

随机梯度下降

一种迭代优化算法,利用在数据小批量上计算出的带噪声梯度估计来更新模型参数。

📖
个术语

Robbins-Monro 算法

随机逼近方法的奠基者,使用递减的学习步长以保证在噪声环境下收敛到驻点。

📖
个术语

随机逼近

在噪声存在情况下的优化理论框架,为使用带噪声估计的学习算法提供收敛性保证。

📖
个术语

强化学习中的重要性采样

一种允许使用旧策略收集的数据来训练新策略的技术,通过密度比率对样本进行加权。

📖
个术语

KL 散度正则化

一种通过 Kullback-Leibler 散度正则化当前策略与先前策略之间距离的约束,防止策略发生过于剧烈的变化。

📖
个术语

策略噪声注入

一种探索策略,直接向策略的参数或输出添加随机噪声,以便在优化过程中保持探索。

📖
个术语

强化学习中的随机神经网络

在参数或激活中引入不确定性的神经网络,被用作随机策略以对复杂的动作分布进行建模。

🔍

未找到结果