Aprendizagem por Conjunto de Modelos
Distribuição Preditiva Posterior
Distribuição completa sobre estados futuros ou recompensas que integra tanto a incerteza sobre os parâmetros do modelo quanto o ruído do processo, aproximada pelas previsões do ensemble na prática. Fundamental para o planejamento robusto em RL.
← Voltar