Planning under Stochastic Uncertainty

📖

termer

Processus de Décision Markovien (MDP)

Cadre mathématique pour modéliser la prise de décision dans des environnements où les résultats sont partiellement aléatoires et sous le contrôle d'un décideur. Un MDP est défini par des états, des actions, une fonction de transition et une fonction de récompense.

📖

termer

Processus de Décision Markovien Partiellement Observable (POMDP)

Généralisation du MDP où l'agent ne connaît pas l'état exact du système mais reçoit des observations probabilistes. Le POMDP modélise des environnements incertains où l'agent doit maintenir une croyance sur les états possibles.

📖

termer

Politique (Policy)

Stratégie qui définit l'action à entreprendre dans chaque état possible. Une politique optimale maximise la récompense cumulative attendue sur l'horizon de planification.

📖

termer

Facteur d'Escompte (Discount Factor)

Paramètre (généralement noté γ) qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Une valeur proche de 1 favorise la planification à long terme.

📖

termer

Modèle d'Observation

Dans les POMDP, fonction probabiliste qui décrit la probabilité d'observer une information particulière étant donné l'état réel du système. Elle relie les états cachés aux observations perçues.

📖

termer

Itération de Valeur (Value Iteration)

Algorithme de résolution pour les MDP qui met à jour itérativement la fonction de valeur jusqu'à convergence vers la fonction de valeur optimale. Il garantit de trouver la politique optimale.

📖

termer

Itération de Politique (Policy Iteration)

Algorithme alternant entre évaluation d'une politique donnée et amélioration de cette politique. Il converge souvent plus rapidement que l'itération de valeur pour les MDP avec un petit espace d'actions.

📖

termer

Point de Selle (Saddle Point)

Concept dans la théorie des jeux et l'optimisation robuste représentant une solution d'équilibre où aucune stratégie ne peut être améliorée unilatéralement. Il est utilisé dans la planification contre des adversaires.

📖

termer

Planification en Ligne (Online Planning)

Approche où les décisions sont calculées à l'exécution plutôt qu'à l'avance. Elle est adaptée aux environnements dynamiques où l'état futur est difficile à prédire avec précision.

📖

termer

Arbre de Politique (Policy Tree)

Représentation d'une politique dans un POMDP comme un arbre de décision où les nœuds internes sont des tests d'observation et les feuilles sont des actions à exécuter. Il capture la nature conditionnelle des décisions.

📖

termer

Échantillonnage de Trajectoire (Trajectory Sampling)

Technique d'approximation pour résoudre les POMDP en explorant un sous-ensemble de trajectoires possibles plutôt que l'espace complet. Elle permet de traiter des problèmes de grande taille.

📖

termer

Programmation Dynamique Approximative (ADP)

Ensemble de méthodes pour résoudre des problèmes de commande optimale de grande dimension en utilisant des approximations de la fonction de valeur. Elle est essentielle pour les MDP avec des espaces d'états continus.

AI-ordlista

Processus de Décision Markovien (MDP)

Processus de Décision Markovien Partiellement Observable (POMDP)

Politique (Policy)

Facteur d'Escompte (Discount Factor)

Modèle d'Observation

Itération de Valeur (Value Iteration)

Itération de Politique (Policy Iteration)

Point de Selle (Saddle Point)

Planification en Ligne (Online Planning)

Arbre de Politique (Policy Tree)

Échantillonnage de Trajectoire (Trajectory Sampling)

Programmation Dynamique Approximative (ADP)

Inga resultat hittades