AI用語集
人工知能の完全辞典
状態-行動分布
Q(s,a)価値関数の確率的表現で、数学的期待値だけでなく可能なリターンの全分布をモデル化するものです。
分布的遷移モデル
モデルベースの強化学習モデルで、次の状態の確率分布をモデル化することで状態遷移の不確実性を捉えるものです。
確率的ダイナミクスモデル
モデルベースのRLにおける予測モデルで、決定論的予測ではなく、次の状態や報酬に関する確率分布を生成するものです。
RLにおける認識的不確実性
環境モデルに関する知識の欠如による不確実性で、モデルベースの分布的RLアプローチで分布によってモデル化されます。
RLにおける偶然的不確実性
より多くのデータがあっても軽減できない環境に固有の不確実性で、分布的RLモデルで分布によって捉えられます。
分布的方策勾配
リターンの期待値ではなく分布を直接最適化する方策勾配法の拡張で、リスクに敏感な方策を可能にします。
リスク敏感RL
期待値だけでなくCVaRや標準偏差などのリスク指標を最適化するために分布情報を利用する強化学習アプローチです。
分布的RLにおけるモデルアンサンブル
モデルベースの分布的RLアプローチで認識的不確実性を捉えるために、独立して学習された複数のモデルを使用する手法です。
粒子ベースの分布モデル
分布を加重粒子の集合で表現する分布モデリングアプローチで、モデルベースRLにおける複雑な遷移に役立ちます。
分布型RLにおけるワッサーシュタイン距離
分布型ベルマン作用素における分布間の非類似性を測定するメトリックで、KL距離よりも優れた収束特性を提供します。
分布型RLにおけるモーメントマッチング
予測分布と目標分布の統計的モーメント(平均、分散など)を一致させるためにパラメータを調整する最適化手法です。
RLにおける変分推論
より単純な分布のファミリーを最適化することで複雑な分布を近似する方法で、モデルベースRLにおける不確実性の処理に適用されます。
モデルベースのベイズRL
環境の可能なモデルに関する分布を維持し、認識的不確実性を定量化して活用するベイズ法を用いるアプローチです。
分布型ベルマン作用素
スカラー値ではなく報酬の分布に対して動作する古典的なベルマン作用素の拡張で、分布構造を保持します。
ホライゾン依存分布
報酬の分布が時間的ホライゾンに応じて変化する分布型RLの概念で、異なる時間スケールにおける不確実性の進化を捉えます。
カテゴリカル原子投影
C51で使用される数学的操作で、分布の一貫性を維持するために目標分布を定義済み原子のサポートに投影します。
分布的不確実性の伝播
モデルベースRLにおけるプロセスで、モデルの予測の不確実性が計画ステップを通じて伝播され、ポリシーの頑健性を評価する。