KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Fonction de croyance
Fonction mathématique qui associe à chaque état possible sa probabilité conditionnelle sachant l'historique des actions et observations. Cette fonction permet de représenter formellement l'incertitude de l'agent dans un environnement partiellement observable.
Filtre de croyance
Algorithme de mise à jour de l'état de croyance en utilisant les nouvelles observations et actions de l'agent. Le filtre applique la règle de Bayes pour maintenir une distribution de probabilité cohérente sur les états cachés.
Point de croyance
Représentation discrète d'un état de croyance dans l'espace des distributions de probabilité, utilisée pour l'approximation des solutions POMDP. Les points de croyance permettent de discrétiser l'espace continu des croyances pour des raisons computationnelles.
Arbre de croyance
Structure arborescente représentant l'évolution possible des états de croyance à travers différentes séquences d'actions et d'observations. Chaque nœud contient un état de croyance et chaque branche représente une action-observation possible.
Modèle d'observation
Fonction de probabilité conditionnelle P(o|s',a) donnant la probabilité d'observer o sachant que l'état réel est s' après avoir effectué l'action a. Ce modèle capture l'incertitude et le bruit dans les capteurs de l'agent.
Distribution de croyance
Représentation probabiliste complète des connaissances de l'agent sur l'état actuel du système. Cette distribution évolue dynamiquement selon les actions de l'agent et les observations reçues de l'environnement.
Mise à jour de Bayes
Procédé mathématique utilisant le théorème de Bayes pour mettre à jour la distribution de croyance après avoir reçu une nouvelle observation. Cette mise à jour combine les probabilités a priori avec les nouvelles informations pour obtenir des probabilités a posteriori.
Fonction de transition d'observation
Fonction qui définit la probabilité d'observer o sachant que l'on est dans l'état s' après avoir effectué l'action a. Cette fonction caractérise le processus d'observation et son niveau de bruit dans l'environnement.
Valeur d'information
Gain attendu en récompense qu'un agent peut obtenir en réduisant son incertitude sur l'état du système. Cette valeur quantifie l'utilité de collecter des informations supplémentaires avant de prendre une décision.
Politique non-markovienne
Stratégie de décision qui dépend de tout l'historique des observations et actions plutôt que uniquement du dernier état observé. Dans les POMDP, les politiques optimales sont nécessairement non-markoviennes car l'état n'est pas directement observable.
Horizon de planification
Nombre d'étapes futures sur lesquelles l'agent optimise sa stratégie de décision, pouvant être fini ou infini. L'horizon influence la complexité computationnelle et la nature des politiques optimales dans les POMDP.
Récompense attendue conditionnelle
Valeur espérée de la récompense future étant donné un état de croyance courant et une politique spécifique. Cette quantité sert de critère d'optimisation pour déterminer les meilleures actions dans un environnement incertain.
Graphe de croyance
Représentation graphique des transitions possibles entre états de croyance, où les nœuds sont des distributions et les arêtes représentent les actions-observations. Cette structure aide à visualiser et analyser la dynamique de l'incertitude.
Point de sursaut
État de croyance particulier où une observation inattendue cause une mise à jour significative des croyances de l'agent. Ces points indiquent souvent des changements importants dans l'environnement ou des erreurs dans le modèle.