Batch Constrained Q-learning (BCQ)
オフライン強化学習
エージェントが事前に収集された固定データセットからのみ学習し、環境との対話を行わない学習パラダイム。リアルタイムの探索が高コストまたは危険な場合に不可欠なアプローチである。
← 戻るエージェントが事前に収集された固定データセットからのみ学習し、環境との対話を行わない学習パラダイム。リアルタイムの探索が高コストまたは危険な場合に不可欠なアプローチである。
← 戻る