Programação Dinâmica - Glossário IA

📖

termos

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖

termos

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖

termos

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖

termos

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖

termos

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖

termos

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖

termos

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖

termos

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖

termos

Avaliação de Política

Processo iterativo que calcula a função de valor para uma política dada resolvendo o sistema de equações lineares de Bellman. Esta etapa é essencial no algoritmo de iteração de política.

📖

termos

Melhoria de Política

Etapa que atualiza uma política escolhendo, para cada estado, a ação que maximiza a função de valor de ação com base na política atual. Essa abordagem gananciosa garante uma nova política pelo menos tão boa quanto a anterior.

📖

termos

Matriz de Transição

Estrutura matemática representando as probabilidades de transição entre estados para cada ação possível em um MDP. Ela codifica a dinâmica estocástica do ambiente e é essencial nos cálculos da programação dinâmica.

📖

termos

Horizonte Temporal

Número de etapas sobre as quais se estende a tomada de decisão, podendo ser finito (episódios de comprimento fixo) ou infinito (processo contínuo). A programação dinâmica adapta-se de maneira diferente conforme o tipo de horizonte considerado.

📖

termos

Operador de Bellman

Operador matemático que transforma uma função de valor em uma nova estimativa aplicando a equação de Bellman. Trata-se de uma contração que garante a convergência para a função de valor ótima.

📖

termos

Política Estacionária

Política que depende apenas do estado atual e não do tempo ou do histórico dos estados visitados. Em MDPs, sempre existe uma política estacionária ótima para problemas com horizonte infinito.

📖

termos

Resolução Exata

Abordagem de programação dinâmica que garante encontrar a solução matematicamente ótima de um MDP, ao contrário dos métodos aproximados. Requer conhecimento completo do modelo do ambiente.

📖

termos

Erro de Truncamento

Diferença entre o valor exato e o valor estimado devido à interrupção prematura das iterações nos algoritmos de programação dinâmica. Esse erro diminui exponencialmente com o número adicional de iterações.

Glossário IA

Itération de la Valeur

Itération de la Politique

Processus de Décision Markovien

Fonction de Valeur

Fonction de Valeur d'Action

Équation de Bellman

Principe d'Optimalité

Facteur d'Escompte

Avaliação de Política

Melhoria de Política

Matriz de Transição

Horizonte Temporal

Operador de Bellman

Política Estacionária

Resolução Exata

Erro de Truncamento

Nenhum resultado encontrado