🏠 Home
Benchmark
📊 Tutti i benchmark 🦖 Dinosauro v1 🦖 Dinosauro v2 ✅ App To-Do List 🎨 Pagine libere creative 🎯 FSACB - Ultimate Showcase 🌍 Benchmark traduzione
Modelli
🏆 Top 10 modelli 🆓 Modelli gratuiti 📋 Tutti i modelli ⚙️ Kilo Code
Risorse
💬 Libreria di prompt 📖 Glossario IA 🔗 Link utili

Glossario IA

Il dizionario completo dell'Intelligenza Artificiale

162
categorie
2.032
sottocategorie
23.060
termini
📖
termini

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant le quintuplet (État, Action, Récompense, État suivant, Action suivante), contrairement au Q-learning qui utilise l'action optimale suivante.

📖
termini

On-policy

Méthode d'apprentissage où la politique d'évaluation et la politique d'amélioration sont identiques, l'agent apprend en suivant directement sa politique actuelle plutôt qu'une politique de comportement distincte.

📖
termini

Politique Epsilon-greedy

Stratégie d'action qui choisit l'action optimale avec probabilité (1-ε) et une action aléatoire avec probabilité ε, assurant un équilibre entre exploitation et exploration dans SARSA.

📖
termini

Fonction Q-valeur

Fonction d'évaluation qui estime la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique déterminée par la suite.

📖
termini

Convergence SARSA

Propriété garantissant que l'algorithme SARSA converge vers la fonction Q-valeur optimale sous certaines conditions, notamment avec un taux d'apprentissage décroissant et une politique GLIE.

📖
termini

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires de SARSA pour les espaces d'états discrets.

📖
termini

Politique GLIE

Politique 'Greedy in the Limit with Infinite Exploration' qui garantit l'exploration suffisante tout en convergeant vers une politique gloutonne, essentielle pour la convergence de SARSA.

📖
termini

Équation de mise à jour SARSA

Formule Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] qui ajuste itérativement les valeurs Q en utilisant l'action réellement exécutée plutôt que l'action optimale.

📖
termini

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
termini

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
termini

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
termini

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
termini

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

Nessun risultato trovato