قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Q-Learning Épisodique
Algorithme d'apprentissage par renforcement off-policy qui apprend la fonction valeur-action à partir d'épisodes complets.
SARSA Épisodique
Algorithme on-policy qui met à jour les valeurs Q en suivant la politique actuelle à travers les épisodes.
Méthodes Monte Carlo
Techniques d'apprentissage basées sur l'échantillonnage complet d'épisodes pour estimer les valeurs.
Learning Temporel Différentiel
Combinaison des approches Monte Carlo et du bootstrapping pour l'apprentissage épisodique.
Policy Gradient Épisodique
Optimisation directe des paramètres de politique en utilisant les gradients des retours épisodiques.
Actor-Critic Épisodique
Architecture hybride combinant un acteur (politique) et un critique (évaluateur de valeur) pour l'apprentissage épisodique.
Exploration vs Exploitation
Dilemme fondamental dans la gestion des épisodes entre découvrir de nouvelles actions et exploiter les connaissances acquises.
Reward Shaping Épisodique
Modification des fonctions de récompense pour accélérer la convergence dans les cadres épisodiques.
Approximation de Fonction
Utilisation de réseaux de neurones ou autres approximateurs pour généraliser à travers les états épisodiques.
Multi-Armed Bandits Épisodiques
Cas simplifié d'apprentissage par renforcement avec des épisodes à une décision.
Apprentissage Hiérarchique
Décomposition des tâches complexes en sous-épisodes hiérarchiques pour faciliter l'apprentissage.
Curriculum Learning
Séquencement progressif des épisodes d'entraînement pour optimiser l'apprentissage.
Experience Replay Épisodique
Stockage et réutilisation sélective des expériences épisodiques pour améliorer l'efficacité d'apprentissage.
Credit Assignment Épisodique
Mécanismes pour attribuer correctement les récompenses aux actions au sein d'un épisode.
Meta-Learning Épisodique
Apprentissage à apprendre rapidement sur de nouvelles tâches en utilisant des méta-épisodes.