Planejamento sob Incerteza Estocástica

📖

termos

Processo de Decisão de Markov (MDP)

Estrutura matemática para modelar a tomada de decisões em ambientes onde os resultados são parcialmente aleatórios e sob o controle de um tomador de decisões. Um MDP é definido por estados, ações, uma função de transição e uma função de recompensa.

📖

termos

Processo de Decisão de Markov Parcialmente Observável (POMDP)

Generalização do MDP onde o agente não conhece o estado exato do sistema, mas recebe observações probabilísticas. O POMDP modela ambientes incertos onde o agente deve manter uma crença sobre os estados possíveis.

📖

termos

Política (Policy)

Estratégia que define a ação a ser tomada em cada estado possível. Uma política ótima maximiza a recompensa cumulativa esperada ao longo do horizonte de planejamento.

📖

termos

Fator de Desconto (Discount Factor)

Parâmetro (geralmente denotado por γ) que pondera a importância das recompensas futuras em relação às recompensas imediatas. Um valor próximo de 1 favorece o planejamento de longo prazo.

📖

termos

Modelo de Observação

Nos POMDPs, função probabilística que descreve a probabilidade de observar uma informação particular dado o estado real do sistema. Ela relaciona os estados ocultos às observações percebidas.

📖

termos

Iteração de Valor (Value Iteration)

Algoritmo de resolução para MDPs que atualiza iterativamente a função de valor até a convergência para a função de valor ótima. Garante encontrar a política ótima.

📖

termos

Iteração de Política (Policy Iteration)

Algoritmo que alterna entre a avaliação de uma dada política e a melhoria dessa política. Frequentemente converge mais rapidamente do que a iteração de valor para MDPs com um pequeno espaço de ações.

📖

termos

Ponto de Sela (Saddle Point)

Conceito na teoria dos jogos e otimização robusta que representa uma solução de equilíbrio onde nenhuma estratégia pode ser melhorada unilateralmente. É usado no planejamento contra adversários.

📖

termos

Planejamento Online (Online Planning)

Abordagem onde as decisões são calculadas durante a execução em vez de antecipadamente. É adequada para ambientes dinâmicos onde o estado futuro é difícil de prever com precisão.

📖

termos

Árvore de Política (Policy Tree)

Representação de uma política em um POMDP como uma árvore de decisão onde os nós internos são testes de observação e as folhas são ações a serem executadas. Ela captura a natureza condicional das decisões.

📖

termos

Amostragem de Trajetória (Trajectory Sampling)

Técnica de aproximação para resolver POMDPs explorando um subconjunto de trajetórias possíveis em vez do espaço completo. Permite lidar com problemas de grande porte.

📖

termos

Programação Dinâmica Aproximada (ADP)

Conjunto de métodos para resolver problemas de controle ótimo de grande dimensão usando aproximações da função de valor. É essencial para MDPs com espaços de estados contínuos.

Glossário IA

Processo de Decisão de Markov (MDP)

Processo de Decisão de Markov Parcialmente Observável (POMDP)

Política (Policy)

Fator de Desconto (Discount Factor)

Modelo de Observação

Iteração de Valor (Value Iteration)

Iteração de Política (Policy Iteration)

Ponto de Sela (Saddle Point)

Planejamento Online (Online Planning)

Árvore de Política (Policy Tree)

Amostragem de Trajetória (Trajectory Sampling)

Programação Dinâmica Aproximada (ADP)

Nenhum resultado encontrado