Glossário IA
O dicionário completo da Inteligência Artificial
Monte Carlo de Primeira Visita
Método de estimativa do valor de estado que calcula a média dos retornos apenas após a primeira visita de cada estado em um episódio. Esta abordagem garante a convergência para o verdadeiro valor de estado com uma variância potencialmente menor do que o MC de Cada Visita.
Monte Carlo de Cada Visita
Algoritmo que atualiza o valor de estado após cada visita a um estado em um episódio, em vez de apenas após a primeira visita. Este método fornece atualizações mais frequentes e converge para o mesmo valor teórico que o MC de Primeira Visita.
Inícios Exploratórios
Hipótese que garante que cada par estado-ação tem uma probabilidade não nula de ser escolhido como ponto de partida de um episódio. Esta condição assegura uma exploração suficiente para a convergência dos métodos de Controle MC.
Controle Monte Carlo
Classe de algoritmos que utilizam estimativas Monte Carlo para aprender uma política ótima por iteração entre avaliação e melhoria da política. Estes métodos não requerem um modelo completo do ambiente.
Monte Carlo Off-Policy
Abordagem de aprendizagem onde a política aprendida (política alvo) difere da política utilizada para gerar os dados (política comportamental). Esta separação permite a aprendizagem a partir de dados de especialistas ou experiências passadas.
Amostragem por Importância Ponderada
Variante de amostragem por importância que utiliza pesos normalizados que reduzem a variância em comparação com a amostragem por importância ordinária. Os pesos são divididos pela sua soma para formar uma média ponderada que é enviesada, mas com menor variância.
Algoritmo GLIE
Estratégia de exploração que é Gulosa no Limite com Exploração Infinita (GLIE), garantindo uma convergência assintótica para a política ótima. A exploração diminui progressivamente enquanto a exploração aumenta ao longo do tempo.
Monte Carlo ES
Algoritmo de Controle Monte Carlo que utiliza Inícios Exploratórios (Exploring Starts) para garantir a exploração de todos os pares estado-ação. Ele mantém estimativas de valor de ação e melhora iterativamente a política em direção à otimalidade.
Desconto de Retorno
Cálculo do retorno em métodos MC aplicando um fator de desconto gamma às recompensas futuras, dando mais importância às recompensas imediatas. O retorno é a soma das recompensas futuras ponderadas pelas potências sucessivas de gamma.
Amostragem de Trajetórias
Processo de geração de episódios completos seguindo uma política dada até atingir um estado terminal. As trajetórias coletadas servem de base para as estimativas Monte Carlo dos valores de estado ou ação.
Atualização MC Incremental
Atualização eficiente das estimativas de valor Monte Carlo usando uma média móvel com uma taxa de aprendizado alfa. Esta abordagem evita o armazenamento de todos os retornos passados, mantendo as garantias de convergência.
Avaliação de Política Monte Carlo
Processo de estimativa da função de valor de uma política amostrando episódios completos e calculando a média dos retornos observados. Ao contrário do DP, este método não requer conhecimento da dinâmica do ambiente.
Estimativa de Política Estocástica
Uso de métodos Monte Carlo para estimar os valores de políticas estocásticas onde as ações são selecionadas de acordo com probabilidades. As estimativas devem levar em conta a distribuição probabilística das ações no cálculo dos retornos.
Métodos Sem Bootstrapping
Característica distintiva dos métodos Monte Carlo que não utilizam estimativas de valor em suas atualizações, ao contrário dos métodos TD. Esta ausência de bootstrapping elimina certos vieses, mas pode aumentar a variância.