Programación Dinámica

📖

términos

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖

términos

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖

términos

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖

términos

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖

términos

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖

términos

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖

términos

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖

términos

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖

términos

Evaluación de Política

Proceso iterativo que calcula la función de valor para una política dada resolviendo el sistema de ecuaciones lineales de Bellman. Esta etapa es esencial en el algoritmo de iteración de política.

📖

términos

Mejora de Política

Etapa que actualiza una política eligiendo, para cada estado, la acción que maximiza la función de valor de acción basada en la política actual. Este enfoque codicioso garantiza una nueva política al menos tan buena como la anterior.

📖

términos

Matriz de Transición

Estructura matemática que representa las probabilidades de transición entre estados para cada acción posible en un MDP. Codifica la dinámica estocástica del entorno y es esencial para los cálculos de programación dinámica.

📖

términos

Horizonte Temporal

Número de pasos sobre los cuales se extiende la toma de decisiones, pudiendo ser finito (episodios de longitud fija) o infinito (proceso continuo). La programación dinámica se adapta de manera diferente según el tipo de horizonte considerado.

📖

términos

Operador de Bellman

Operador matemático que transforma una función de valor en una nueva estimación aplicando la ecuación de Bellman. Es una contracción que garantiza la convergencia hacia la función de valor óptima.

📖

términos

Política Estacionaria

Política que depende únicamente del estado actual y no del tiempo ni del historial de estados visitados. En los MDP, siempre existe una política estacionaria óptima para problemas con horizonte infinito.

📖

términos

Resolución Exacta

Enfoque de programación dinámica que garantiza encontrar la solución matemáticamente óptima de un MDP, a diferencia de los métodos aproximados. Requiere un conocimiento completo del modelo del entorno.

📖

términos

Error de Truncamiento

Diferencia entre el valor exacto y el valor estimado debido a la interrupción prematura de las iteraciones en los algoritmos de programación dinámica. Este error disminuye exponencialmente con el número adicional de iteraciones.

Glosario IA

Itération de la Valeur

Itération de la Politique

Processus de Décision Markovien

Fonction de Valeur

Fonction de Valeur d'Action

Équation de Bellman

Principe d'Optimalité

Facteur d'Escompte

Evaluación de Política

Mejora de Política

Matriz de Transición

Horizonte Temporal

Operador de Bellman

Política Estacionaria

Resolución Exacta

Error de Truncamiento

No se encontraron resultados