🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.

📖
शब्द

On-policy

Méthode d'apprentissage où la politique d'évaluation et la politique d'amélioration sont identiques, l'agent apprend en suivant directement sa politique actuelle plutôt qu'une politique de comportement distincte.

📖
शब्द

Politique Epsilon-greedy

Stratégie d'action qui choisit l'action optimale avec probabilité (1-ε) et une action aléatoire avec probabilité ε, assurant un équilibre entre exploitation et exploration dans SARSA.

📖
शब्द

Fonction Q-valeur

Fonction d'évaluation qui estime la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique déterminée par la suite.

📖
शब्द

Convergence SARSA

Propriété garantissant que l'algorithme SARSA converge vers la fonction Q-valeur optimale sous certaines conditions, notamment avec un taux d'apprentissage décroissant et une politique GLIE.

📖
शब्द

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires de SARSA pour les espaces d'états discrets.

📖
शब्द

Politique GLIE

Politique 'Greedy in the Limit with Infinite Exploration' qui garantit l'exploration suffisante tout en convergeant vers une politique gloutonne, essentielle pour la convergence de SARSA.

📖
शब्द

Équation de mise à jour SARSA

Formule Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] qui ajuste itérativement les valeurs Q en utilisant l'action réellement exécutée plutôt que l'action optimale.

📖
शब्द

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
शब्द

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
शब्द

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
शब्द

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
शब्द

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

कोई परिणाम नहीं मिला