YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Itération de la Valeur
Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.
Itération de la Politique
Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.
Processus de Décision Markovien
Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.
Fonction de Valeur
Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.
Fonction de Valeur d'Action
Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.
Équation de Bellman
Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.
Principe d'Optimalité
Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.
Facteur d'Escompte
Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.
Évaluation de la Politique
Processus itératif qui calcule la fonction de valeur pour une politique donnée en résolvant le système d'équations linéaires de Bellman. Cette étape est essentielle dans l'algorithme d'itération de la politique.
Amélioration de la Politique
Étape qui met à jour une politique en choisissant, pour chaque état, l'action qui maximise la fonction de valeur d'action basée sur la politique actuelle. Cette approche gloutonne garantit une nouvelle politique au moins aussi bonne que la précédente.
Matrice de Transition
Structure mathématique représentant les probabilités de transition entre états pour chaque action possible dans un MDP. Elle encode la dynamique stochastique de l'environnement et est essentielle aux calculs de programmation dynamique.
Horizon Temporel
Nombre d'étapes sur lequel s'étend la prise de décision, pouvant être fini (épisodes de longueur fixe) ou infini (processus continu). La programmation dynamique s'adapte différemment selon le type d'horizon considéré.
Opérateur de Bellman
Opérateur mathématique qui transforme une fonction de valeur en une nouvelle estimation en appliquant l'équation de Bellman. Il s'agit d'une contraction garantissant la convergence vers la fonction de valeur optimale.
Politique Stationnaire
Politique qui ne dépend que de l'état actuel et non du temps ou de l'historique des états visités. Dans les MDP, il existe toujours une politique stationnaire optimale pour les problèmes à horizon infini.
Résolution Exacte
Approche de programmation dynamique qui garantit de trouver la solution mathématiquement optimale d'un MDP, contrairement aux méthodes approximatives. Elle nécessite une connaissance complète du modèle de l'environnement.
Erreur de Troncature
Différence entre la valeur exacte et la valeur estimée due à l'arrêt prématuré des itérations dans les algorithmes de programmation dynamique. Cette erreur diminue exponentiellement avec le nombre d'itérations supplémentaires.