DAggerデータ集約
軌道分布
エージェントが現在のポリシーに従って生成する状態とアクションのシーケンスの集合。DAggerは、この分布を最適な専門家ポリシーによって生成される分布と一致させることを目指します。
← 戻るエージェントが現在のポリシーに従って生成する状態とアクションのシーケンスの集合。DAggerは、この分布を最適な専門家ポリシーによって生成される分布と一致させることを目指します。
← 戻る