分位数回帰DRL - AI用語集

📖

用語

期待値のみではなく、期待される報酬の全分布をモデル化する深層強化学習のアプローチであり、分位点回帰を用いて価値分布の分位点を推定します。

📖

用語

分布型深層強化学習（DRL）で使用される分布間の距離メトリクスであり、予測された報酬分布とターゲット分布との間の非類似度を測定し、学習の安定性を向上させます。

📖

用語

各状態-行動ペアに対して期待値のみではなく、期待される報酬の全分布を近似する手法であり、環境に固有の不確実性と変動性を捉えます。

📖

用語

分位点回帰ではなくExpectile回帰を使用する分布型DRLの変種であり、特にリスクに敏感な文脈に適した、報酬分布の推定における制御可能な非対称性を提供します。

📖

用語

各状態-行動ペアに対する将来の期待報酬の完全な確率的表現であり、平均だけでなく分散、歪度、およびその他の統計的モーメントも特徴付けます。

📖

用語

ターゲット報酬分布をサポートされた分布空間に射影する更新手順であり、分布型フレームワークにおける学習の一貫性と安定性を保証します。

📖

用語

報酬分布の裾（テイル）を分析することで極端なリスク（テイルリスク）を定量的に評価する分布型DRLの能力であり、重要なアプリケーションにおいて不可欠です。

📖

用語

QR-DRLの枠組みにおける分位点のサンプリング手法であり、分布学習の効率を最適化するために、一様サンプリング、適応的サンプリング、または重要性ベースのサンプリングが含まれます。

AI用語集