Programmation Dynamique

📖

termes

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖

termes

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖

termes

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖

termes

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖

termes

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖

termes

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖

termes

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖

termes

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖

termes

Évaluation de la Politique

Processus itératif qui calcule la fonction de valeur pour une politique donnée en résolvant le système d'équations linéaires de Bellman. Cette étape est essentielle dans l'algorithme d'itération de la politique.

📖

termes

Amélioration de la Politique

Étape qui met à jour une politique en choisissant, pour chaque état, l'action qui maximise la fonction de valeur d'action basée sur la politique actuelle. Cette approche gloutonne garantit une nouvelle politique au moins aussi bonne que la précédente.

📖

termes

Matrice de Transition

Structure mathématique représentant les probabilités de transition entre états pour chaque action possible dans un MDP. Elle encode la dynamique stochastique de l'environnement et est essentielle aux calculs de programmation dynamique.

📖

termes

Horizon Temporel

Nombre d'étapes sur lequel s'étend la prise de décision, pouvant être fini (épisodes de longueur fixe) ou infini (processus continu). La programmation dynamique s'adapte différemment selon le type d'horizon considéré.

📖

termes

Opérateur de Bellman

Opérateur mathématique qui transforme une fonction de valeur en une nouvelle estimation en appliquant l'équation de Bellman. Il s'agit d'une contraction garantissant la convergence vers la fonction de valeur optimale.

📖

termes

Politique Stationnaire

Politique qui ne dépend que de l'état actuel et non du temps ou de l'historique des états visités. Dans les MDP, il existe toujours une politique stationnaire optimale pour les problèmes à horizon infini.

📖

termes

Résolution Exacte

Approche de programmation dynamique qui garantit de trouver la solution mathématiquement optimale d'un MDP, contrairement aux méthodes approximatives. Elle nécessite une connaissance complète du modèle de l'environnement.

📖

termes

Erreur de Troncature

Différence entre la valeur exacte et la valeur estimée due à l'arrêt prématuré des itérations dans les algorithmes de programmation dynamique. Cette erreur diminue exponentiellement avec le nombre d'itérations supplémentaires.

Glossaire IA

Itération de la Valeur

Itération de la Politique

Processus de Décision Markovien

Fonction de Valeur

Fonction de Valeur d'Action

Équation de Bellman

Principe d'Optimalité

Facteur d'Escompte

Évaluation de la Politique

Amélioration de la Politique

Matrice de Transition

Horizon Temporel

Opérateur de Bellman

Politique Stationnaire

Résolution Exacte

Erreur de Troncature

Aucun résultat trouvé