Métodos Monte Carlo - Glossário IA

📖

termos

Métodos de Monte Carlo

Técnicas de aprendizado por reforço baseadas na amostragem de episódios completos para estimar os valores de estado ou de ação sem exigir um modelo de transição.

📖

termos

Episódio completo

Sequência de estados, ações e recompensas que termina quando um estado terminal é atingido, permitindo o cálculo do retorno acumulado para o aprendizado Monte Carlo.

📖

termos

Estimação fora da política

Método Monte Carlo em que a política de avaliação difere da política-alvo, exigindo técnicas de amostragem de importância para corrigir o viés de distribuição.

📖

termos

Estimação dentro da política

Abordagem Monte Carlo em que os dados são gerados seguindo a mesma política que está sendo avaliada, simplificando o processo de aprendizagem.

📖

termos

Primeira visita (First-visit MC)

Variante Monte Carlo em que apenas a primeira ocorrência de cada estado em um episódio contribui para a atualização do seu valor de estado.

📖

termos

Toda visita (Every-visit MC)

Variante Monte Carlo em que cada ocorrência de um estado em um episódio contribui para a atualização do seu valor de estado, geralmente mais eficiente na prática.

📖

termos

Amostragem de importância ordinária

Método de amostragem de importância em que o peso é o produto das razões de probabilidade em cada etapa, podendo resultar em alta variância.

📖

termos

Amostragem de importância ponderada

Variante da amostragem de importância que normaliza os pesos para reduzir a variância, oferecendo um melhor equilíbrio entre viés e variância.

📖

termos

États de départ exploratoires

Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.

📖

termos

GLIE

Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.

📖

termos

Retour (Return)

Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.

📖

termos

Facteur d'escompte

Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.

📖

termos

Fonction de valeur d'état

Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.

📖

termos

Fonction de valeur d'action

Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).

📖

termos

Biais de distribution

Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.

📖

termos

Variance d'estimation

Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.

Glossário IA

Métodos de Monte Carlo

Episódio completo

Estimação fora da política

Estimação dentro da política

Primeira visita (First-visit MC)

Toda visita (Every-visit MC)

Amostragem de importância ordinária

Amostragem de importância ponderada

États de départ exploratoires

GLIE

Retour (Return)

Facteur d'escompte

Fonction de valeur d'état

Fonction de valeur d'action

Biais de distribution

Variance d'estimation

Nenhum resultado encontrado