🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

策略梯度

一种直接优化方法,通过跟随期望回报的梯度来调整策略参数,允许在不需环境模型的情况下学习随机策略。

📖
術語

REINFORCE算法

基础策略梯度算法,使用梯度的蒙特卡洛估计根据完全观察到的回合来更新策略参数。

📖
術語

演员-评论家方法

混合方法,结合了学习策略的演员和估计价值函数的评论家,减少了策略梯度估计的方差。

📖
術語

优势函数

衡量在给定状态下某个行动相对于平均行动的优势度,计算为Q函数与V函数的差值以减少梯度方差。

📖
術語

近端策略优化(PPO)

通过限制更新使其接近先前策略来优化策略的算法,使用截断的目标函数确保学习稳定性。

📖
術語

信任区域策略优化(TRPO)

通过在由连续策略之间的KL散度定义的信任区域内优化策略来保证性能单调改进的方法。

📖
術語

自然策略梯度

策略梯度的变体,使用费舍尔度量进行参数化不变的更新,保证更稳定和有效的收敛。

📖
術語

策略网络

参数化的神经网络,表示策略π(a|s; θ),根据当前状态生成行动的条件概率分布。

📖
術語

蒙特卡罗策略梯度

一种梯度估计技术,使用完整轨迹计算回报,提供无偏但高方差的估计。

📖
術語

基线函数

从回报中减去的函数,用于在不引入偏置的情况下减少梯度估计的方差,通常是状态值函数。

📖
術語

重要性采样

允许使用旧策略收集的数据来更新新策略的技术,通过根据策略概率比率对样本进行加权。

📖
術語

熵正则化

在目标函数中添加熵项,通过惩罚过于确定的策略来鼓励探索,提高学习的鲁棒性。

📖
術語

确定性策略梯度

策略梯度在连续动作空间的扩展,其中策略是确定性的,在高维环境中特别有效。

📖
術語

随机策略

由动作概率分布π(a|s)表示的策略,允许内在探索,对策略梯度方法至关重要。

📖
術語

KL散度约束

限制连续策略之间的KL散度的约束,以确保稳定的更新并避免行为的剧烈变化。

📖
術語

广义优势估计

通过多步估计器的加权平均来组合偏差和方差的优势估计方法,为学习提供最佳权衡。

📖
術語

Policy Gradient Theorem

提供关于策略参数的预期回报的梯度分析表达式的基本定理,为方法奠定理论基础。

📖
術語

Return-to-Go

从给定时间步开始的未来奖励的折扣总和,用作策略梯度算法中的梯度估计器。

🔍

搵唔到結果