Glossário IA
O dicionário completo da Inteligência Artificial
Itération de la Valeur
Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.
Itération de la Politique
Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.
Processus de Décision Markovien
Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.
Fonction de Valeur
Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.
Fonction de Valeur d'Action
Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.
Équation de Bellman
Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.
Principe d'Optimalité
Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.
Facteur d'Escompte
Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.
Avaliação de Política
Processo iterativo que calcula a função de valor para uma política dada resolvendo o sistema de equações lineares de Bellman. Esta etapa é essencial no algoritmo de iteração de política.
Melhoria de Política
Etapa que atualiza uma política escolhendo, para cada estado, a ação que maximiza a função de valor de ação com base na política atual. Essa abordagem gananciosa garante uma nova política pelo menos tão boa quanto a anterior.
Matriz de Transição
Estrutura matemática representando as probabilidades de transição entre estados para cada ação possível em um MDP. Ela codifica a dinâmica estocástica do ambiente e é essencial nos cálculos da programação dinâmica.
Horizonte Temporal
Número de etapas sobre as quais se estende a tomada de decisão, podendo ser finito (episódios de comprimento fixo) ou infinito (processo contínuo). A programação dinâmica adapta-se de maneira diferente conforme o tipo de horizonte considerado.
Operador de Bellman
Operador matemático que transforma uma função de valor em uma nova estimativa aplicando a equação de Bellman. Trata-se de uma contração que garante a convergência para a função de valor ótima.
Política Estacionária
Política que depende apenas do estado atual e não do tempo ou do histórico dos estados visitados. Em MDPs, sempre existe uma política estacionária ótima para problemas com horizonte infinito.
Resolução Exata
Abordagem de programação dinâmica que garante encontrar a solução matematicamente ótima de um MDP, ao contrário dos métodos aproximados. Requer conhecimento completo do modelo do ambiente.
Erro de Truncamento
Diferença entre o valor exato e o valor estimado devido à interrupção prematura das iterações nos algoritmos de programação dinâmica. Esse erro diminui exponencialmente com o número adicional de iterações.