Słownik AI
Kompletny słownik sztucznej inteligencji
Méthodes Monte Carlo
Techniques d'apprentissage par renforcement basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs d'état ou d'action sans nécessiter de modèle de transition.
Épisode complet
Séquence d'états, d'actions et de récompenses qui se termine lorsqu'un état terminal est atteint, permettant le calcul du retour cumulé pour l'apprentissage Monte Carlo.
Estimation hors politique
Méthode Monte Carlo où la politique d'évaluation diffère de la politique cible, nécessitant des techniques d'importance sampling pour corriger le biais de distribution.
Estimation en politique
Approche Monte Carlo où les données sont générées en suivant la même politique que celle étant évaluée, simplifiant le processus d'apprentissage.
Premier visité (First-visit MC)
Variante Monte Carlo où seule la première occurrence de chaque état dans un épisode contribue à la mise à jour de sa valeur d'état.
Tout visité (Every-visit MC)
Variante Monte Carlo où chaque occurrence d'un état dans un épisode contribue à la mise à jour de sa valeur d'état, généralement plus efficace en pratique.
Importance sampling ordinaire
Méthode d'importance sampling où le poids est le produit des ratios de probabilité à chaque étape, pouvant entraîner une variance élevée.
Importance sampling pondéré
Variante d'importance sampling qui normalise les poids pour réduire la variance, offrant un meilleur compromis biais-variance.
États de départ exploratoires
Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.
GLIE
Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.
Retour (Return)
Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.
Facteur d'escompte
Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.
Fonction de valeur d'état
Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.
Fonction de valeur d'action
Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).
Biais de distribution
Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.
Variance d'estimation
Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.