アンサンブル学習
予測事後分布
モデルのパラメータに関する不確実性とプロセスノイズの両方を統合した未来の状態または報酬に関する完全な分布で、実践的にはアンサンブル予測によって近似される。RLの堅牢な計画に不可欠。
← 戻るモデルのパラメータに関する不確実性とプロセスノイズの両方を統合した未来の状態または報酬に関する完全な分布で、実践的にはアンサンブル予測によって近似される。RLの堅牢な計画に不可欠。
← 戻る