DAggerデータ集約
フィードバックループ
現在のポリシーのパフォーマンスが新しい状態を生成し、それらが専門家の修正を必要とする継続的なサイクル。この反復ループはDAggerにおける改善の基本的なメカニズムです。
← 戻る現在のポリシーのパフォーマンスが新しい状態を生成し、それらが専門家の修正を必要とする継続的なサイクル。この反復ループはDAggerにおける改善の基本的なメカニズムです。
← 戻る