POMDP (Partially Observable Markov Decision Process)

📖

termer

Croyance (Belief State)

Une distribution de probabilité sur l'ensemble des états possibles, représentant l'estimation par l'agent de l'état actuel du système compte tenu de l'historique des observations et des actions.

📖

termer

Fonction d'observation

Modèle probabiliste qui définit la probabilité d'observer une certaine information sachant l'état réel du système et l'action entreprise par l'agent.

📖

termer

Espace d'observations

L'ensemble de toutes les observations possibles que l'agent peut recevoir de l'environnement, qui peuvent être moins informatives que l'état réel.

📖

termer

Mise à jour de la croyance

Processus, souvent basé sur le filtre de Bayes, par lequel l'agent met à jour sa distribution de croyance après avoir effectué une action et reçu une nouvelle observation.

📖

termer

Politique de croyance

Une stratégie qui mappe chaque état de croyance possible à une action à entreprendre, optimisant l'espérance des récompenses cumulées sur le long terme.

📖

termer

Horizon

Le nombre d'étapes sur lequel un agent planifie, pouvant être fini (épisode) ou infini, influençant la manière dont les récompenses futures sont actualisées.

📖

termer

Arbre de planification

Une structure de données arborescente explorant les séquences possibles d'actions et d'observations pour évaluer et choisir la meilleure politique dans un POMDP.

📖

termer

Pointwise POMDP Value Iteration (POMDP-PI)

Un algorithme d'itération sur la valeur qui calcule les fonctions de valeur optimales pour les POMDPs en représentant la fonction de valeur comme un ensemble de vecteurs alpha.

📖

termer

Vecteurs Alpha (Alpha Vectors)

Les hyperplans qui composent la fonction de valeur dans un POMDP, où chaque vecteur est associé à une action et définit une région de l'espace des croyances où cette action est optimale.

📖

termer

Q-MDP

Une méthode d'approximation pour résoudre les POMDPs qui suppose que la valeur d'une action dans un état de croyance est la valeur Q de l'action dans l'état le plus probable de cette croyance.

📖

termer

Factored POMDP

Une représentation de POMDP où l'espace d'états et d'observations est structuré à l'aide de variables aléatoires, permettant de modéliser des dépendances et de réduire la complexité.

📖

termer

DEC-POMDP

Acronyme de Decentralized Partially Observable Markov Decision Process, une extension du POMDP à plusieurs agents qui prennent des décisions de manière décentralisée sans communication directe.

📖

termer

Rétropropagation de la valeur (Value Backup)

L'opération fondamentale dans les algorithmes de POMDP qui met à jour la valeur d'un nœud de croyance en considérant les valeurs des nœuds enfants résultant des actions et observations possibles.

AI-ordlista

Croyance (Belief State)

Fonction d'observation

Espace d'observations

Mise à jour de la croyance

Politique de croyance

Horizon

Arbre de planification

Pointwise POMDP Value Iteration (POMDP-PI)

Vecteurs Alpha (Alpha Vectors)

Q-MDP

Factored POMDP

DEC-POMDP

Rétropropagation de la valeur (Value Backup)

Inga resultat hittades