Apprentissage par Ensemble de Modèles
Distribution Postérieure Predictive
Distribution complète sur les états futurs ou récompenses intégrant à la fois l'incertitude sur les paramètres du modèle et le bruit du processus, approximée par les prédictions d'ensemble en pratique. Fondamentale pour la planification robuste en RL.
← 返回