AI 词汇表
人工智能完整词典
马尔可夫决策过程 (MDP)
用于在结果部分随机且由决策者控制的决策环境中建模决策的数学框架。MDP由状态、动作、转移函数和奖励函数定义。
部分可观测马尔可夫决策过程 (POMDP)
MDP的推广,其中智能体不知道系统的确切状态,但接收概率性观测。POMDP建模不确定环境,其中智能体必须维护对可能状态的信念。
策略 (Policy)
定义在每个可能状态下采取何种行动的策略。最优策略在规划范围内最大化预期累积奖励。
折扣因子 (Discount Factor)
参数(通常记为γ),用于权衡未来奖励相对于即时奖励的重要性。接近1的值有利于长期规划。
观测模型 (Observation Model)
在POMDP中,描述在给定系统真实状态下观察到特定信息概率的概率函数。它将隐藏状态与感知到的观测联系起来。
值迭代 (Value Iteration)
用于求解MDP的算法,通过迭代更新值函数直至收敛到最优值函数。它保证能找到最优策略。
策略迭代 (Policy Iteration)
在给定策略评估和策略改进之间交替的算法。对于动作空间较小的MDP,它通常比值迭代收敛更快。
鞍点 (Saddle Point)
博弈论和鲁棒优化中的概念,表示一种均衡解,其中任何策略都无法单方面改进。它用于对抗性规划。
Planification en Ligne (Online Planning)
Approche où les décisions sont calculées à l'exécution plutôt qu'à l'avance. Elle est adaptée aux environnements dynamiques où l'état futur est difficile à prédire avec précision.
Arbre de Politique (Policy Tree)
Représentation d'une politique dans un POMDP comme un arbre de décision où les nœuds internes sont des tests d'observation et les feuilles sont des actions à exécuter. Il capture la nature conditionnelle des décisions.
Échantillonnage de Trajectoire (Trajectory Sampling)
Technique d'approximation pour résoudre les POMDP en explorant un sous-ensemble de trajectoires possibles plutôt que l'espace complet. Elle permet de traiter des problèmes de grande taille.
Programmation Dynamique Approximative (ADP)
Ensemble de méthodes pour résoudre des problèmes de commande optimale de grande dimension en utilisant des approximations de la fonction de valeur. Elle est essentielle pour les MDP avec des espaces d'états continus.