Batch Constrained Q-learning (BCQ)
不確実性推定
バッチ内で観測されなかった行動の価値推定に関連する不確実性の定量化。不確実性の正確な推定は、分布外の行動にペナルティを課し、堅牢性を向上させることを可能にする。
← 戻るバッチ内で観測されなかった行動の価値推定に関連する不確実性の定量化。不確実性の正確な推定は、分布外の行動にペナルティを課し、堅牢性を向上させることを可能にする。
← 戻る