Batch Constrained Q-learning (BCQ)
ブートストラップ誤差
ポリシーが自身の価値推定を用いて改善を行う際に蓄積される誤差で、データのサポートから逸脱する発散を引き起こす。オフライン手法では、このバイアスを制御するための特定の技術が用いられる。
← 戻るポリシーが自身の価値推定を用いて改善を行う際に蓄積される誤差で、データのサポートから逸脱する発散を引き起こす。オフライン手法では、このバイアスを制御するための特定の技術が用いられる。
← 戻る