AI-woordenlijst
Het complete woordenboek van kunstmatige intelligentie
Q-learning
Algorithme d'apprentissage par renforcement sans modèle qui apprend la fonction de valeur action-état pour trouver la politique optimale.
SARSA
Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant l'action réellement suivie.
Programmation Dynamique
Méthodes mathématiques incluant l'itération de la valeur et l'itération de la politique pour résoudre les MDP.
Méthodes Monte Carlo
Techniques d'apprentissage basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs.
Apprentissage Temporel Différentiel
Combinaison de programmation dynamique et Monte Carlo permettant des mises à jour en ligne après chaque étape.
Double Q-learning
Variante du Q-learning utilisant deux estimateurs Q pour réduire le biais de surestimation des valeurs d'action.
Approximation de Fonction
Extension des méthodes tabulaires aux espaces d'états continus utilisant des approximateurs comme réseaux de neurones.
Apprentissage avec Modèle
Approches où le modèle de transition de l'environnement est connu ou appris pour planifier les actions.
Exploration vs Exploitation
Stratégies pour équilibrer l'exploration de nouvelles actions et l'exploitation des connaissances acquises.
Processus Décisionnels Markoviens
Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique.
Apprentissage Multi-agents
Extension de l'apprentissage par renforcement à des environnements avec plusieurs agents interagissant.
Processus Observables Partiellement
Généralisation des MDP où l'état n'est que partiellement observable, nécessitant des croyances sur l'état.
Méthodes de Gradient de Politique
Optimisation directe des paramètres de politique en suivant le gradient des performances attendues.
Éligibility Traces
Mécanisme combinant avantages de TD et Monte Carlo pour accélérer l'apprentissage via crédit temporel.
Factorisation de la Valeur
Décomposition de la fonction Q en valeur d'état et avantage pour améliorer la stabilité de l'apprentissage.