アンサンブル学習
アンサンブル分散
アンサンブル内の異なるモデル間の予測のばらつきを定量化する指標で、モデルベースRLシステムにおける認識論的不確実性の直接的な代理値として機能する。状態空間のあまり探索されていない領域でより高くなる。
← 戻るアンサンブル内の異なるモデル間の予測のばらつきを定量化する指標で、モデルベースRLシステムにおける認識論的不確実性の直接的な代理値として機能する。状態空間のあまり探索されていない領域でより高くなる。
← 戻る