🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📖
용어

Méthodes Monte Carlo

Techniques d'apprentissage par renforcement basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs d'état ou d'action sans nécessiter de modèle de transition.

📖
용어

Épisode complet

Séquence d'états, d'actions et de récompenses qui se termine lorsqu'un état terminal est atteint, permettant le calcul du retour cumulé pour l'apprentissage Monte Carlo.

📖
용어

Estimation hors politique

Méthode Monte Carlo où la politique d'évaluation diffère de la politique cible, nécessitant des techniques d'importance sampling pour corriger le biais de distribution.

📖
용어

Estimation en politique

Approche Monte Carlo où les données sont générées en suivant la même politique que celle étant évaluée, simplifiant le processus d'apprentissage.

📖
용어

Premier visité (First-visit MC)

Variante Monte Carlo où seule la première occurrence de chaque état dans un épisode contribue à la mise à jour de sa valeur d'état.

📖
용어

Tout visité (Every-visit MC)

Variante Monte Carlo où chaque occurrence d'un état dans un épisode contribue à la mise à jour de sa valeur d'état, généralement plus efficace en pratique.

📖
용어

Importance sampling ordinaire

Méthode d'importance sampling où le poids est le produit des ratios de probabilité à chaque étape, pouvant entraîner une variance élevée.

📖
용어

Importance sampling pondéré

Variante d'importance sampling qui normalise les poids pour réduire la variance, offrant un meilleur compromis biais-variance.

📖
용어

États de départ exploratoires

Technique assurant que tous les états-paires sont visités infiniment souvent en commençant chaque épisode depuis un état choisi aléatoirement.

📖
용어

GLIE

Propriété garantissant convergence vers une politique optimale : Greedy in the Limit with Infinite Exploration, combinant exploration décroissante et exploitation croissante.

📖
용어

Retour (Return)

Somme des récompenses futures escomptées depuis un état donné jusqu'à la fin de l'épisode, utilisée pour estimer les valeurs dans les méthodes Monte Carlo.

📖
용어

Facteur d'escompte

Paramètre gamma (γ) dans [0,1] pondérant l'importance des récompenses futures, contrôlant l'horizon temporel de l'agent dans le calcul des retours.

📖
용어

Fonction de valeur d'état

Estimation du retour attendu en partant d'un état donné et en suivant une politique spécifique, notée Vπ(s) dans le cadre Monte Carlo.

📖
용어

Fonction de valeur d'action

Estimation du retour attendu après avoir pris une action dans un état donné et en suivant ensuite une politique spécifique, notée Qπ(s,a).

📖
용어

Biais de distribution

Problème dans l'importance sampling où la distribution des échantillons ne correspond pas à la distribution cible, nécessitant des techniques de correction.

📖
용어

Variance d'estimation

Mesure de la variabilité des estimations Monte Carlo due à l'échantillonnage stochastique des épisodes, influençant la vitesse de convergence.

🔍

결과를 찾을 수 없습니다