Glossário IA
O dicionário completo da Inteligência Artificial
Processo de Decisão de Markov (MDP)
Estrutura matemática para modelar a tomada de decisões em ambientes onde os resultados são parcialmente aleatórios e sob o controle de um tomador de decisões. Um MDP é definido por estados, ações, uma função de transição e uma função de recompensa.
Processo de Decisão de Markov Parcialmente Observável (POMDP)
Generalização do MDP onde o agente não conhece o estado exato do sistema, mas recebe observações probabilísticas. O POMDP modela ambientes incertos onde o agente deve manter uma crença sobre os estados possíveis.
Política (Policy)
Estratégia que define a ação a ser tomada em cada estado possível. Uma política ótima maximiza a recompensa cumulativa esperada ao longo do horizonte de planejamento.
Fator de Desconto (Discount Factor)
Parâmetro (geralmente denotado por γ) que pondera a importância das recompensas futuras em relação às recompensas imediatas. Um valor próximo de 1 favorece o planejamento de longo prazo.
Modelo de Observação
Nos POMDPs, função probabilística que descreve a probabilidade de observar uma informação particular dado o estado real do sistema. Ela relaciona os estados ocultos às observações percebidas.
Iteração de Valor (Value Iteration)
Algoritmo de resolução para MDPs que atualiza iterativamente a função de valor até a convergência para a função de valor ótima. Garante encontrar a política ótima.
Iteração de Política (Policy Iteration)
Algoritmo que alterna entre a avaliação de uma dada política e a melhoria dessa política. Frequentemente converge mais rapidamente do que a iteração de valor para MDPs com um pequeno espaço de ações.
Ponto de Sela (Saddle Point)
Conceito na teoria dos jogos e otimização robusta que representa uma solução de equilíbrio onde nenhuma estratégia pode ser melhorada unilateralmente. É usado no planejamento contra adversários.
Planejamento Online (Online Planning)
Abordagem onde as decisões são calculadas durante a execução em vez de antecipadamente. É adequada para ambientes dinâmicos onde o estado futuro é difícil de prever com precisão.
Árvore de Política (Policy Tree)
Representação de uma política em um POMDP como uma árvore de decisão onde os nós internos são testes de observação e as folhas são ações a serem executadas. Ela captura a natureza condicional das decisões.
Amostragem de Trajetória (Trajectory Sampling)
Técnica de aproximação para resolver POMDPs explorando um subconjunto de trajetórias possíveis em vez do espaço completo. Permite lidar com problemas de grande porte.
Programação Dinâmica Aproximada (ADP)
Conjunto de métodos para resolver problemas de controle ótimo de grande dimensão usando aproximações da função de valor. É essencial para MDPs com espaços de estados contínuos.