POMDP (Partially Observable Markov Decision Process)

📖

용어

Croyance (Belief State)

Une distribution de probabilité sur l'ensemble des états possibles, représentant l'estimation par l'agent de l'état actuel du système compte tenu de l'historique des observations et des actions.

📖

용어

Fonction d'observation

Modèle probabiliste qui définit la probabilité d'observer une certaine information sachant l'état réel du système et l'action entreprise par l'agent.

📖

용어

Espace d'observations

L'ensemble de toutes les observations possibles que l'agent peut recevoir de l'environnement, qui peuvent être moins informatives que l'état réel.

📖

용어

Mise à jour de la croyance

Processus, souvent basé sur le filtre de Bayes, par lequel l'agent met à jour sa distribution de croyance après avoir effectué une action et reçu une nouvelle observation.

📖

용어

Politique de croyance

Une stratégie qui mappe chaque état de croyance possible à une action à entreprendre, optimisant l'espérance des récompenses cumulées sur le long terme.

📖

용어

Horizon

Le nombre d'étapes sur lequel un agent planifie, pouvant être fini (épisode) ou infini, influençant la manière dont les récompenses futures sont actualisées.

📖

용어

Arbre de planification

Une structure de données arborescente explorant les séquences possibles d'actions et d'observations pour évaluer et choisir la meilleure politique dans un POMDP.

📖

용어

Pointwise POMDP Value Iteration (POMDP-PI)

Un algorithme d'itération sur la valeur qui calcule les fonctions de valeur optimales pour les POMDPs en représentant la fonction de valeur comme un ensemble de vecteurs alpha.

📖

용어

Vecteurs Alpha (Alpha Vectors)

Les hyperplans qui composent la fonction de valeur dans un POMDP, où chaque vecteur est associé à une action et définit une région de l'espace des croyances où cette action est optimale.

📖

용어

Q-MDP

Une méthode d'approximation pour résoudre les POMDPs qui suppose que la valeur d'une action dans un état de croyance est la valeur Q de l'action dans l'état le plus probable de cette croyance.

📖

용어

Factored POMDP

Une représentation de POMDP où l'espace d'états et d'observations est structuré à l'aide de variables aléatoires, permettant de modéliser des dépendances et de réduire la complexité.

📖

용어

DEC-POMDP

Acronyme de Decentralized Partially Observable Markov Decision Process, une extension du POMDP à plusieurs agents qui prennent des décisions de manière décentralisée sans communication directe.

📖

용어

Rétropropagation de la valeur (Value Backup)

L'opération fondamentale dans les algorithmes de POMDP qui met à jour la valeur d'un nœud de croyance en considérant les valeurs des nœuds enfants résultant des actions et observations possibles.

AI 용어집