AI 詞彙表
人工智能完整詞典
Apprentissage par Renforcement Model-Based
Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.
Dyna-Q
Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.
Apprentissage direct
Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.
Planification dans l'apprentissage par renforcement
Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.
Modèle de transition
Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.
Modèle de récompense
Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.
Expériences simulées
Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.
Mise à jour de la valeur
Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.
经验记忆
存储三元组(状态、动作、奖励、下一状态)的数据结构,允许在规划阶段进行重复更新。
Dyna-Q+
Dyna-Q的扩展,集成了基于状态-动作对最后访问时间的探索机制,以检测和适应环境变化。
优先级扫描
Dyna-Q的变体,根据更新对值的潜在影响进行优先级排序,优化规划阶段的计算效率。
规划效应
当每个真实步骤的规划步骤数量增加时观察到的学习加速,直到达到收益递减点。
算法收敛
确保Dyna-Q的值估计在模型精确和无限访问的某些条件下收敛到最优值的属性。
模型误差
环境实际行为与学习模型预测之间的差异,如果不受控制可能会降低性能。
计算复杂性
Dyna-Q的计算成本,线性依赖于经验记忆的大小和每次迭代的规划更新次数。
模型泛化
将模型预测外推到未观察到的状态-动作对的能力,通常通过神经网络或其他函数逼近器实现。
状态空间采样
在规划阶段从记忆中选择模拟经验的策略,影响Dyna-Q的学习效率。
规划功能
对存储的经验进行重复更新以优化价值估计的算法组件,无需新的环境交互。
自适应学习速度
在Dyna-Q中动态调整学习率的机制,以考虑真实和模拟经验的方差来优化收敛性。