AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
期待値近似
将来の報酬の期待値の推定のみに集中する強化学習(RL)における従来の手法。このアプローチは、報酬分布の分散や高次のモーメントを無視する。
用語
分布ベルマン方程式
スカラー値ではなく確率分布に対して操作を行う、ベルマン方程式の一般化。状態遷移を通じて報酬の分布がどのように伝播するかを記述する。
用語
リスク感受性方策
期待値だけでなく、報酬分布の分散やその他の特性も考慮する行動戦略。目的に応じて、これらの方策はリスク回避的またはリスク追求的になり得る。
用語
累積分布関数
確率変数が特定の閾値以下の値をとる確率を与える数学的関数。分布強化学習において、累積報酬の完全な分布を表す。
用語
モーメントマッチング
ターゲット分布の統計的モーメント(平均、分散など)を一致させようとする近似手法。強化学習における分布の表現を簡略化するために使用されることがある。
🔍