Métodos Monte Carlo em RL

📖

termos

Monte Carlo de Primeira Visita

Método de estimativa do valor de estado que calcula a média dos retornos apenas após a primeira visita de cada estado em um episódio. Esta abordagem garante a convergência para o verdadeiro valor de estado com uma variância potencialmente menor do que o MC de Cada Visita.

📖

termos

Monte Carlo de Cada Visita

Algoritmo que atualiza o valor de estado após cada visita a um estado em um episódio, em vez de apenas após a primeira visita. Este método fornece atualizações mais frequentes e converge para o mesmo valor teórico que o MC de Primeira Visita.

📖

termos

Inícios Exploratórios

Hipótese que garante que cada par estado-ação tem uma probabilidade não nula de ser escolhido como ponto de partida de um episódio. Esta condição assegura uma exploração suficiente para a convergência dos métodos de Controle MC.

📖

termos

Controle Monte Carlo

Classe de algoritmos que utilizam estimativas Monte Carlo para aprender uma política ótima por iteração entre avaliação e melhoria da política. Estes métodos não requerem um modelo completo do ambiente.

📖

termos

Monte Carlo Off-Policy

Abordagem de aprendizagem onde a política aprendida (política alvo) difere da política utilizada para gerar os dados (política comportamental). Esta separação permite a aprendizagem a partir de dados de especialistas ou experiências passadas.

📖

termos

Amostragem por Importância Ponderada

Variante de amostragem por importância que utiliza pesos normalizados que reduzem a variância em comparação com a amostragem por importância ordinária. Os pesos são divididos pela sua soma para formar uma média ponderada que é enviesada, mas com menor variância.

📖

termos

Algoritmo GLIE

Estratégia de exploração que é Gulosa no Limite com Exploração Infinita (GLIE), garantindo uma convergência assintótica para a política ótima. A exploração diminui progressivamente enquanto a exploração aumenta ao longo do tempo.

📖

termos

Monte Carlo ES

Algoritmo de Controle Monte Carlo que utiliza Inícios Exploratórios (Exploring Starts) para garantir a exploração de todos os pares estado-ação. Ele mantém estimativas de valor de ação e melhora iterativamente a política em direção à otimalidade.

📖

termos

Desconto de Retorno

Cálculo do retorno em métodos MC aplicando um fator de desconto gamma às recompensas futuras, dando mais importância às recompensas imediatas. O retorno é a soma das recompensas futuras ponderadas pelas potências sucessivas de gamma.

📖

termos

Amostragem de Trajetórias

Processo de geração de episódios completos seguindo uma política dada até atingir um estado terminal. As trajetórias coletadas servem de base para as estimativas Monte Carlo dos valores de estado ou ação.

📖

termos

Atualização MC Incremental

Atualização eficiente das estimativas de valor Monte Carlo usando uma média móvel com uma taxa de aprendizado alfa. Esta abordagem evita o armazenamento de todos os retornos passados, mantendo as garantias de convergência.

📖

termos

Avaliação de Política Monte Carlo

Processo de estimativa da função de valor de uma política amostrando episódios completos e calculando a média dos retornos observados. Ao contrário do DP, este método não requer conhecimento da dinâmica do ambiente.

📖

termos

Estimativa de Política Estocástica

Uso de métodos Monte Carlo para estimar os valores de políticas estocásticas onde as ações são selecionadas de acordo com probabilidades. As estimativas devem levar em conta a distribuição probabilística das ações no cálculo dos retornos.

📖

termos

Métodos Sem Bootstrapping

Característica distintiva dos métodos Monte Carlo que não utilizam estimativas de valor em suas atualizações, ao contrário dos métodos TD. Esta ausência de bootstrapping elimina certos vieses, mas pode aumentar a variância.

Glossário IA

Monte Carlo de Primeira Visita

Monte Carlo de Cada Visita

Inícios Exploratórios

Controle Monte Carlo

Monte Carlo Off-Policy

Amostragem por Importância Ponderada

Algoritmo GLIE

Monte Carlo ES

Desconto de Retorno

Amostragem de Trajetórias

Atualização MC Incremental

Avaliação de Política Monte Carlo

Estimativa de Política Estocástica

Métodos Sem Bootstrapping

Nenhum resultado encontrado