Méthodes Monte Carlo

📖

용어

Techniques d'apprentissage par renforcement basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs d'état ou d'action sans nécessiter de modèle de transition.

📖

용어

Épisode complet

Séquence d'états, d'actions et de récompenses qui se termine lorsqu'un état terminal est atteint, permettant le calcul du retour cumulé pour l'apprentissage Monte Carlo.

📖

용어

Estimation hors politique

Méthode Monte Carlo où la politique d'évaluation diffère de la politique cible, nécessitant des techniques d'importance sampling pour corriger le biais de distribution.

📖

용어

Estimation en politique

Approche Monte Carlo où les données sont générées en suivant la même politique que celle étant évaluée, simplifiant le processus d'apprentissage.

📖

용어

Premier visité (First-visit MC)

Variante Monte Carlo où seule la première occurrence de chaque état dans un épisode contribue à la mise à jour de sa valeur d'état.

📖

용어

Tout visité (Every-visit MC)

Variante Monte Carlo où chaque occurrence d'un état dans un épisode contribue à la mise à jour de sa valeur d'état, généralement plus efficace en pratique.

📖

용어

Importance sampling ordinaire

Méthode d'importance sampling où le poids est le produit des ratios de probabilité à chaque étape, pouvant entraîner une variance élevée.

📖

용어

Importance sampling pondéré

Variante d'importance sampling qui normalise les poids pour réduire la variance, offrant un meilleur compromis biais-variance.

📖

용어

États de départ exploratoires

Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.

📖

용어

GLIE

Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.

📖

용어

Retour (Return)

Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.

📖

용어

Facteur d'escompte

Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.

📖

용어

Fonction de valeur d'état

Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.

📖

용어

Fonction de valeur d'action

Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).

📖

용어

Biais de distribution

Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.

📖

용어

Variance d'estimation

Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.

AI 용어집