Glossário IA
O dicionário completo da Inteligência Artificial
Métodos de Monte Carlo
Técnicas de aprendizado por reforço baseadas na amostragem de episódios completos para estimar os valores de estado ou de ação sem exigir um modelo de transição.
Episódio completo
Sequência de estados, ações e recompensas que termina quando um estado terminal é atingido, permitindo o cálculo do retorno acumulado para o aprendizado Monte Carlo.
Estimação fora da política
Método Monte Carlo em que a política de avaliação difere da política-alvo, exigindo técnicas de amostragem de importância para corrigir o viés de distribuição.
Estimação dentro da política
Abordagem Monte Carlo em que os dados são gerados seguindo a mesma política que está sendo avaliada, simplificando o processo de aprendizagem.
Primeira visita (First-visit MC)
Variante Monte Carlo em que apenas a primeira ocorrência de cada estado em um episódio contribui para a atualização do seu valor de estado.
Toda visita (Every-visit MC)
Variante Monte Carlo em que cada ocorrência de um estado em um episódio contribui para a atualização do seu valor de estado, geralmente mais eficiente na prática.
Amostragem de importância ordinária
Método de amostragem de importância em que o peso é o produto das razões de probabilidade em cada etapa, podendo resultar em alta variância.
Amostragem de importância ponderada
Variante da amostragem de importância que normaliza os pesos para reduzir a variância, oferecendo um melhor equilíbrio entre viés e variância.
États de départ exploratoires
Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.
GLIE
Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.
Retour (Return)
Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.
Facteur d'escompte
Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.
Fonction de valeur d'état
Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.
Fonction de valeur d'action
Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).
Biais de distribution
Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.
Variance d'estimation
Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.