Bayesian Reinforcement Learning

📖

pojęcia

Fonction de valeur bayésienne

Estimation de la valeur attendue des états ou actions en tenant compte de l'incertitude distributionnelle sur les paramètres du modèle.

📖

pojęcia

Modèle bayésien de transition

Représentation probabiliste des dynamiques de l'environnement où les probabilités de transition sont traitées comme des variables aléatoires avec distributions.

📖

pojęcia

Politique bayésienne optimale

Stratégie de décision maximisant l'espérance de récompense cumulative sur la distribution a posteriori des paramètres du modèle.

📖

pojęcia

Exploration guidée par l'incertitude

Stratégie d'exploration privilégiant les états ou actions présentant la plus grande incertitude épistémique pour accélérer l'apprentissage.

📖

pojęcia

Filtres de particules bayésiens

Méthodes d'inférence séquentielle approximant les distributions a posteriori par des ensembles pondérés d'échantillons appelés particules.

📖

pojęcia

Apprentissage par renforcement basé sur les modèles bayésiens

Approche où l'agent construit et utilise un modèle bayésien de l'environnement pour planifier et prendre des décisions optimales.

📖

pojęcia

Distribution prédictive a posteriori

Distribution de probabilité sur les états futurs intégrant à la fois l'incertitude du modèle et l'incertitude sur les paramètres.

📖

pojęcia

Raisonnement causal bayésien

Utilisation de réseaux bayésiens pour modéliser les relations causales entre les actions et les conséquences dans l'environnement.

📖

pojęcia

Bandits bayésiens

Problème simplifié d'apprentissage par renforcement où l'agent sélectionne des actions avec des récompenses incertaines modélisées bayésiennement.

Słownik AI

Fonction de valeur bayésienne

Modèle bayésien de transition

Politique bayésienne optimale

Exploration guidée par l'incertitude

Filtres de particules bayésiens

Apprentissage par renforcement basé sur les modèles bayésiens

Distribution prédictive a posteriori

Raisonnement causal bayésien

Bandits bayésiens

Nie znaleziono wyników