AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
分位点回帰DRL
期待値のみではなく、期待される報酬の全分布をモデル化する深層強化学習のアプローチであり、分位点回帰を用いて価値分布の分位点を推定します。
用語
DRLにおけるワッサースタイン距離
分布型深層強化学習(DRL)で使用される分布間の距離メトリクスであり、予測された報酬分布とターゲット分布との間の非類似度を測定し、学習の安定性を向上させます。
用語
価値分布モデリング
各状態-行動ペアに対して期待値のみではなく、期待される報酬の全分布を近似する手法であり、環境に固有の不確実性と変動性を捉えます。
用語
Expectile回帰RL
分位点回帰ではなくExpectile回帰を使用する分布型DRLの変種であり、特にリスクに敏感な文脈に適した、報酬分布の推定における制御可能な非対称性を提供します。
用語
確率的報酬分布
各状態-行動ペアに対する将来の期待報酬の完全な確率的表現であり、平均だけでなく分散、歪度、およびその他の統計的モーメントも特徴付けます。
用語
分布型射影ベルマン更新
ターゲット報酬分布をサポートされた分布空間に射影する更新手順であり、分布型フレームワークにおける学習の一貫性と安定性を保証します。
用語
DRLにおけるテイルリスク評価
報酬分布の裾(テイル)を分析することで極端なリスク(テイルリスク)を定量的に評価する分布型DRLの能力であり、重要なアプリケーションにおいて不可欠です。
用語
分位点サンプリング戦略
QR-DRLの枠組みにおける分位点のサンプリング手法であり、分布学習の効率を最適化するために、一様サンプリング、適応的サンプリング、または重要性ベースのサンプリングが含まれます。
🔍