POMDP (Partially Observable Markov Decision Process)

📖

termes

Croyance (Belief State)

Une distribution de probabilité sur l'ensemble des états possibles, représentant l'estimation par l'agent de l'état actuel du système compte tenu de l'historique des observations et des actions.

📖

termes

Fonction d'observation

Modèle probabiliste qui définit la probabilité d'observer une certaine information sachant l'état réel du système et l'action entreprise par l'agent.

📖

termes

Espace d'observations

L'ensemble de toutes les observations possibles que l'agent peut recevoir de l'environnement, qui peuvent être moins informatives que l'état réel.

📖

termes

Mise à jour de la croyance

Processus, souvent basé sur le filtre de Bayes, par lequel l'agent met à jour sa distribution de croyance après avoir effectué une action et reçu une nouvelle observation.

📖

termes

Politique de croyance

Une stratégie qui mappe chaque état de croyance possible à une action à entreprendre, optimisant l'espérance des récompenses cumulées sur le long terme.

📖

termes

Horizon

Le nombre d'étapes sur lequel un agent planifie, pouvant être fini (épisode) ou infini, influençant la manière dont les récompenses futures sont actualisées.

📖

termes

Arbre de planification

Une structure de données arborescente explorant les séquences possibles d'actions et d'observations pour évaluer et choisir la meilleure politique dans un POMDP.

📖

termes

Pointwise POMDP Value Iteration (POMDP-PI)

Un algorithme d'itération sur la valeur qui calcule les fonctions de valeur optimales pour les POMDPs en représentant la fonction de valeur comme un ensemble de vecteurs alpha.

📖

termes

Vecteurs Alpha (Alpha Vectors)

Les hyperplans qui composent la fonction de valeur dans un POMDP, où chaque vecteur est associé à une action et définit une région de l'espace des croyances où cette action est optimale.

📖

termes

Q-MDP

Une méthode d'approximation pour résoudre les POMDPs qui suppose que la valeur d'une action dans un état de croyance est la valeur Q de l'action dans l'état le plus probable de cette croyance.

📖

termes

Factored POMDP

Une représentation de POMDP où l'espace d'états et d'observations est structuré à l'aide de variables aléatoires, permettant de modéliser des dépendances et de réduire la complexité.

📖

termes

DEC-POMDP

Acronyme de Decentralized Partially Observable Markov Decision Process, une extension du POMDP à plusieurs agents qui prennent des décisions de manière décentralisée sans communication directe.

📖

termes

Rétropropagation de la valeur (Value Backup)

L'opération fondamentale dans les algorithmes de POMDP qui met à jour la valeur d'un nœud de croyance en considérant les valeurs des nœuds enfants résultant des actions et observations possibles.

Glossaire IA

Croyance (Belief State)

Fonction d'observation

Espace d'observations

Mise à jour de la croyance

Politique de croyance

Horizon

Arbre de planification

Pointwise POMDP Value Iteration (POMDP-PI)

Vecteurs Alpha (Alpha Vectors)

Q-MDP

Factored POMDP

DEC-POMDP

Rétropropagation de la valeur (Value Backup)

Aucun résultat trouvé