🏠 Strona Główna
Benchmarki
📊 Wszystkie benchmarki 🦖 Dinozaur v1 🦖 Dinozaur v2 ✅ Aplikacje To-Do List 🎨 Kreatywne wolne strony 🎯 FSACB - Ostateczny pokaz 🌍 Benchmark tłumaczeń
Modele
🏆 Top 10 modeli 🆓 Darmowe modele 📋 Wszystkie modele ⚙️ Kilo Code
Zasoby
💬 Biblioteka promptów 📖 Słownik AI 🔗 Przydatne linki

Słownik AI

Kompletny słownik sztucznej inteligencji

162
kategorie
2 032
podkategorie
23 060
pojęcia
📖
pojęcia

Méthodes Monte Carlo

Techniques d'apprentissage par renforcement basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs d'état ou d'action sans nécessiter de modèle de transition.

📖
pojęcia

Épisode complet

Séquence d'états, d'actions et de récompenses qui se termine lorsqu'un état terminal est atteint, permettant le calcul du retour cumulé pour l'apprentissage Monte Carlo.

📖
pojęcia

Estimation hors politique

Méthode Monte Carlo où la politique d'évaluation diffère de la politique cible, nécessitant des techniques d'importance sampling pour corriger le biais de distribution.

📖
pojęcia

Estimation en politique

Approche Monte Carlo où les données sont générées en suivant la même politique que celle étant évaluée, simplifiant le processus d'apprentissage.

📖
pojęcia

Premier visité (First-visit MC)

Variante Monte Carlo où seule la première occurrence de chaque état dans un épisode contribue à la mise à jour de sa valeur d'état.

📖
pojęcia

Tout visité (Every-visit MC)

Variante Monte Carlo où chaque occurrence d'un état dans un épisode contribue à la mise à jour de sa valeur d'état, généralement plus efficace en pratique.

📖
pojęcia

Importance sampling ordinaire

Méthode d'importance sampling où le poids est le produit des ratios de probabilité à chaque étape, pouvant entraîner une variance élevée.

📖
pojęcia

Importance sampling pondéré

Variante d'importance sampling qui normalise les poids pour réduire la variance, offrant un meilleur compromis biais-variance.

📖
pojęcia

États de départ exploratoires

Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.

📖
pojęcia

GLIE

Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.

📖
pojęcia

Retour (Return)

Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.

📖
pojęcia

Facteur d'escompte

Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.

📖
pojęcia

Fonction de valeur d'état

Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.

📖
pojęcia

Fonction de valeur d'action

Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).

📖
pojęcia

Biais de distribution

Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.

📖
pojęcia

Variance d'estimation

Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.

🔍

Nie znaleziono wyników