AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
离策略学习
一种学习方法,智能体在学习最优策略的同时遵循另一种行为策略,从而实现更好的探索。
術語
目标网络
具有缓慢更新权重的复制神经网络,通过提供更一致的目标来稳定学习过程。
術語
奥恩斯坦-乌伦贝克过程
用于生成动作中时间相关噪声的随机过程,促进在连续空间中的有效探索。
術語
连续动作空间
动作可以取连续区间内任意值的环境,与离散动作不同,需要相适应的算法。
術語
神经网络函数逼近
使用神经网络来近似强化学习中的复杂函数,如策略函数或值函数。
術語
软更新
使用tau(τ)系数缓慢混合主要网络和目标网络权重的渐进式目标网络更新方法。
術語
行动者网络
学习将状态直接映射到连续动作空间中最优动作的神经网络。
術語
确定性策略
为每个状态关联一个特定动作的策略,与返回概率分布的随机策略相反。
術語
动作噪声
在训练过程中添加到演员产生的动作中的噪声,以鼓励对连续动作空间的探索
🔍