AI用語集
人工知能の完全辞典
モデルベース強化学習
エージェントが環境の内部モデルを構築し、実際の対話なしに遷移をシミュレートし、経験を生成する強化学習アプローチ。
Dyna-Q
実際の経験から直接学習し、学習したモデルを使用して追加のシミュレートされた経験を生成する計画を組み合わせたハイブリッド強化学習アルゴリズム。
直接学習
環境との対話中に蓄積された実際の経験のみに基づいて、行動価値または方策を更新するプロセス。
強化学習における計画
環境の追加対話なしに、合成経験を生成し方策を改善するために環境モデルを使用すること。
遷移モデル
現在の状態と行動を与えられた場合の次の状態の確率分布を推定する予測環境モデルのコンポーネント。
報酬モデル
強化学習環境で各状態行動ペアに対する期待報酬を予測する学習済み関数。
シミュレートされた経験
追加の実際の対話を必要とせずに学習を加速するために、環境の内部モデルによって人工的に生成されたサンプル。
価値更新
ベルマン方程式に従って、観測された報酬と将来の状態の価値に基づいて行動価値推定Q(s,a)を調整する反復プロセス。
経験メモリ
(状態、行動、報酬、次の状態)のトリプレットを保存するデータ構造で、計画フェーズ中の反復更新を可能にする。
Dyna-Q+
状態行動ペアの最終訪問からの経過時間に基づく探索メカニズムを統合し、環境変化を検出・適応するためのDyna-Qの拡張版。
優先スイープ
更新が価値への潜在的な影響に基づいて優先付けされるDyna-Qの変種で、計画フェーズの計算効率を最適化する。
計画効果
実際のステップあたりの計画ステップ数が増加する際に観察される学習の加速効果(収穫逓減点まで)。
アルゴリズムの収束
正確なモデルと無限訪問の特定条件下で、Dyna-Qの価値推定値が最適値に収束することを保証する特性。
モデル誤差
環境の実際の挙動と学習済みモデルの予測間の差異で、制御されない場合にパフォーマンスを低下させる可能性がある。
計算複雑性
経験メモリのサイズと反復あたりの計画更新数に線形的に依存するDyna-Qの計算コスト。
モデルの一般化
ニューラルネットワークやその他の関数近似器によって実現されることが多い、未観測の状態行動ペアへのモデル予測の外挿能力。
状態空間サンプリング
計画フェーズ中にメモリからシミュレートされた経験を選択する戦略で、Dyna-Qの学習効率に影響を与えます。
計画関数
格納された経験に対して繰り返し更新を実行し、新しい環境相互作用なしで価値推定を洗練するアルゴリズムコンポーネント。
適応的学習率
実際の経験とシミュレートされた経験の分散を考慮して収束を最適化するため、Dyna-Qにおける学習率を動的に調整するメカニズム。