Programmation Dynamique

📖

个术语

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖

个术语

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖

个术语

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖

个术语

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖

个术语

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖

个术语

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖

个术语

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖

个术语

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖

个术语

Évaluation de la Politique

Processus itératif qui calcule la fonction de valeur pour une politique donnée en résolvant le système d'équations linéaires de Bellman. Cette étape est essentielle dans l'algorithme d'itération de la politique.

📖

个术语

Amélioration de la Politique

Étape qui met à jour une politique en choisissant, pour chaque état, l'action qui maximise la fonction de valeur d'action basée sur la politique actuelle. Cette approche gloutonne garantit une nouvelle politique au moins aussi bonne que la précédente.

📖

个术语

Matrice de Transition

Structure mathématique représentant les probabilités de transition entre états pour chaque action possible dans un MDP. Elle encode la dynamique stochastique de l'environnement et est essentielle aux calculs de programmation dynamique.

📖

个术语

Horizon Temporel

Nombre d'étapes sur lequel s'étend la prise de décision, pouvant être fini (épisodes de longueur fixe) ou infini (processus continu). La programmation dynamique s'adapte différemment selon le type d'horizon considéré.

📖

个术语

Opérateur de Bellman

Opérateur mathématique qui transforme une fonction de valeur en une nouvelle estimation en appliquant l'équation de Bellman. Il s'agit d'une contraction garantissant la convergence vers la fonction de valeur optimale.

📖

个术语

Politique Stationnaire

Politique qui ne dépend que de l'état actuel et non du temps ou de l'historique des états visités. Dans les MDP, il existe toujours une politique stationnaire optimale pour les problèmes à horizon infini.

📖

个术语

Résolution Exacte

Approche de programmation dynamique qui garantit de trouver la solution mathématiquement optimale d'un MDP, contrairement aux méthodes approximatives. Elle nécessite une connaissance complète du modèle de l'environnement.

📖

个术语

Erreur de Troncature

Différence entre la valeur exacte et la valeur estimée due à l'arrêt prématuré des itérations dans les algorithmes de programmation dynamique. Cette erreur diminue exponentiellement avec le nombre d'itérations supplémentaires.

AI 词汇表