継続的分配型強化学習

📖

用語

連続量子化分布

連続アクション空間における戻り値の分布を進化的な量子化値の集合として表現し、不確実性とリスクの詳細なモデリングを可能にする。

📖

用語

Cramer-Wold分布射影

一次元方向に射影して分布を比較する数学的技法で、連続強化学習における分布メトリクスに不可欠。

📖

用語

原子分布ネットワーク

固定された原子の重み付き集合として分布を表現するニューラルアーキテクチャで、確率的戻り値を持つ連続アクション問題に適している。

📖

用語

連続分布リスク

連続アクション空間の戻り値分布における不確実性を定量化する測度で、堅牢なポリシーの評価に重要。

📖

用語

確率的分布ポリシー

連続アクションの選択において戻り値分布を直接組み込むアクション戦略で、期待値のみではなく分布全体に対して最適化する。

📖

用語

量子化分布期待値

量子化表現から期待値を計算する演算子で、連続空間における分布的特性を保持する。

📖

用語

分布的棄却サンプリング

複雑な戻り値分布から連続アクションを生成する際に、分布的特性を保持するサンプリング手法。

📖

用語

確率的分布的最適化

連続空間において点推定値ではなく、戻り値分布に直接働きかける最適化パラダイム。

📖

用語

分布カーネルによる近似

高次元連続行動空間におけるリターン分布を近似するためにカーネル関数を使用する手法。

📖

用語

連続強化学習におけるワッサースタイン距離

リターン分布間の非類似性を測定するメトリクス。特に複雑な幾何学を持つ連続行動問題に適している。

📖

用語

分布的インポータンスサンプリング

連続空間での政策勾配推定中に分布的特性を保持する重み付きサンプリング手法。

📖

用語

モンテカルロによる分布的更新

連続行動空間でモンテカルロサンプルを使用してリターン分布を更新するアルゴリズム。分布の形状を保持する。

📖

用語

分散的分散削減

分布の形状に関する情報を失うことなく、分布的推定における分散を削減する手法の集合。

📖

用語

分布的欲張り方策

連続空間で期待値だけでなく、完全な分布上の基準（例：分位点、CVaR）に基づいて最適行動を選択する戦略。

📖

用語

分布的ベルマン方程式

スカラー値ではなく完全な分布上で操作するベルマン方程式の定式化。連続分布的強化学習の基礎となる。

📖

用語

連続空間における分布的批評家

連続状態-行動ペアに対してリターンの完全な分布を推定するニューラルネットワーク。従来のスカラー値批評家に取って代わる。

📖

用語

連続行動における分布的バイアス

連続行動空間におけるリターン推定において、分布的近似が系統的なバイアスをもたらす現象。

📖

用語

連続分布正規化

異なるスケールの連続行動を処理する際に、分布的特性を維持する正規化手法。

📖

用語

適応的分布的探索

リターン分布の完全な情報を利用して、連続行動における探索的行動に適応させる探索戦略。

AI用語集