AI-ordlista
Den kompletta ordlistan över AI
Processus de Décision Markovien (MDP)
Cadre mathématique pour modéliser la prise de décision dans des environnements où les résultats sont partiellement aléatoires et sous le contrôle d'un décideur. Un MDP est défini par des états, des actions, une fonction de transition et une fonction de récompense.
Processus de Décision Markovien Partiellement Observable (POMDP)
Généralisation du MDP où l'agent ne connaît pas l'état exact du système mais reçoit des observations probabilistes. Le POMDP modélise des environnements incertains où l'agent doit maintenir une croyance sur les états possibles.
Politique (Policy)
Stratégie qui définit l'action à entreprendre dans chaque état possible. Une politique optimale maximise la récompense cumulative attendue sur l'horizon de planification.
Facteur d'Escompte (Discount Factor)
Paramètre (généralement noté γ) qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Une valeur proche de 1 favorise la planification à long terme.
Modèle d'Observation
Dans les POMDP, fonction probabiliste qui décrit la probabilité d'observer une information particulière étant donné l'état réel du système. Elle relie les états cachés aux observations perçues.
Itération de Valeur (Value Iteration)
Algorithme de résolution pour les MDP qui met à jour itérativement la fonction de valeur jusqu'à convergence vers la fonction de valeur optimale. Il garantit de trouver la politique optimale.
Itération de Politique (Policy Iteration)
Algorithme alternant entre évaluation d'une politique donnée et amélioration de cette politique. Il converge souvent plus rapidement que l'itération de valeur pour les MDP avec un petit espace d'actions.
Point de Selle (Saddle Point)
Concept dans la théorie des jeux et l'optimisation robuste représentant une solution d'équilibre où aucune stratégie ne peut être améliorée unilatéralement. Il est utilisé dans la planification contre des adversaires.
Planification en Ligne (Online Planning)
Approche où les décisions sont calculées à l'exécution plutôt qu'à l'avance. Elle est adaptée aux environnements dynamiques où l'état futur est difficile à prédire avec précision.
Arbre de Politique (Policy Tree)
Représentation d'une politique dans un POMDP comme un arbre de décision où les nœuds internes sont des tests d'observation et les feuilles sont des actions à exécuter. Il capture la nature conditionnelle des décisions.
Échantillonnage de Trajectoire (Trajectory Sampling)
Technique d'approximation pour résoudre les POMDP en explorant un sous-ensemble de trajectoires possibles plutôt que l'espace complet. Elle permet de traiter des problèmes de grande taille.
Programmation Dynamique Approximative (ADP)
Ensemble de méthodes pour résoudre des problèmes de commande optimale de grande dimension en utilisant des approximations de la fonction de valeur. Elle est essentielle pour les MDP avec des espaces d'états continus.