Glosario IA
El diccionario completo de la Inteligencia Artificial
Itération de la Valeur
Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.
Itération de la Politique
Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.
Processus de Décision Markovien
Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.
Fonction de Valeur
Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.
Fonction de Valeur d'Action
Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.
Équation de Bellman
Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.
Principe d'Optimalité
Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.
Facteur d'Escompte
Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.
Evaluación de Política
Proceso iterativo que calcula la función de valor para una política dada resolviendo el sistema de ecuaciones lineales de Bellman. Esta etapa es esencial en el algoritmo de iteración de política.
Mejora de Política
Etapa que actualiza una política eligiendo, para cada estado, la acción que maximiza la función de valor de acción basada en la política actual. Este enfoque codicioso garantiza una nueva política al menos tan buena como la anterior.
Matriz de Transición
Estructura matemática que representa las probabilidades de transición entre estados para cada acción posible en un MDP. Codifica la dinámica estocástica del entorno y es esencial para los cálculos de programación dinámica.
Horizonte Temporal
Número de pasos sobre los cuales se extiende la toma de decisiones, pudiendo ser finito (episodios de longitud fija) o infinito (proceso continuo). La programación dinámica se adapta de manera diferente según el tipo de horizonte considerado.
Operador de Bellman
Operador matemático que transforma una función de valor en una nueva estimación aplicando la ecuación de Bellman. Es una contracción que garantiza la convergencia hacia la función de valor óptima.
Política Estacionaria
Política que depende únicamente del estado actual y no del tiempo ni del historial de estados visitados. En los MDP, siempre existe una política estacionaria óptima para problemas con horizonte infinito.
Resolución Exacta
Enfoque de programación dinámica que garantiza encontrar la solución matemáticamente óptima de un MDP, a diferencia de los métodos aproximados. Requiere un conocimiento completo del modelo del entorno.
Error de Truncamiento
Diferencia entre el valor exacto y el valor estimado debido a la interrupción prematura de las iteraciones en los algoritmos de programación dinámica. Este error disminuye exponencialmente con el número adicional de iteraciones.