🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📖
용어

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.

📖
용어

On-policy

Méthode d'apprentissage où la politique d'évaluation et la politique d'amélioration sont identiques, l'agent apprend en suivant directement sa politique actuelle plutôt qu'une politique de comportement distincte.

📖
용어

Politique Epsilon-greedy

Stratégie d'action qui choisit l'action optimale avec probabilité (1-ε) et une action aléatoire avec probabilité ε, assurant un équilibre entre exploitation et exploration dans SARSA.

📖
용어

Fonction Q-valeur

Fonction d'évaluation qui estime la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique déterminée par la suite.

📖
용어

Convergence SARSA

Propriété garantissant que l'algorithme SARSA converge vers la fonction Q-valeur optimale sous certaines conditions, notamment avec un taux d'apprentissage décroissant et une politique GLIE.

📖
용어

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires de SARSA pour les espaces d'états discrets.

📖
용어

Politique GLIE

Politique 'Greedy in the Limit with Infinite Exploration' qui garantit l'exploration suffisante tout en convergeant vers une politique gloutonne, essentielle pour la convergence de SARSA.

📖
용어

Équation de mise à jour SARSA

Formule Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] qui ajuste itérativement les valeurs Q en utilisant l'action réellement exécutée plutôt que l'action optimale.

📖
용어

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
용어

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
용어

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
용어

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
용어

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

결과를 찾을 수 없습니다