🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.

📖
術語

On-policy

Méthode d'apprentissage où la politique d'évaluation et la politique d'amélioration sont identiques, l'agent apprend en suivant directement sa politique actuelle plutôt qu'une politique de comportement distincte.

📖
術語

Politique Epsilon-greedy

Stratégie d'action qui choisit l'action optimale avec probabilité (1-ε) et une action aléatoire avec probabilité ε, assurant un équilibre entre exploitation et exploration dans SARSA.

📖
術語

Fonction Q-valeur

Fonction d'évaluation qui estime la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique déterminée par la suite.

📖
術語

Convergence SARSA

Propriété garantissant que l'algorithme SARSA converge vers la fonction Q-valeur optimale sous certaines conditions, notamment avec un taux d'apprentissage décroissant et une politique GLIE.

📖
術語

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires de SARSA pour les espaces d'états discrets.

📖
術語

Politique GLIE

Politique 'Greedy in the Limit with Infinite Exploration' qui garantit l'exploration suffisante tout en convergeant vers une politique gloutonne, essentielle pour la convergence de SARSA.

📖
術語

Équation de mise à jour SARSA

Formule Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] qui ajuste itérativement les valeurs Q en utilisant l'action réellement exécutée plutôt que l'action optimale.

📖
術語

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
術語

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
術語

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
術語

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
術語

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

搵唔到結果