確率的強化学習

📂

サブカテゴリ

確率的マルコフ決定過程

遷移と報酬が確率分布に従い、環境の不確実性をモデル化するMDP。

17 用語

📂

サブカテゴリ

強化学習におけるモンテカルロ法

確率的環境下で状態行動価値を推定するために、反復的なランダムサンプリングを用いるアルゴリズム

14 用語

📂

サブカテゴリ

確率的方策

決定的な行動ではなく、行動の確率分布を返す方策。

11 用語

📂

サブカテゴリ

ベイズ強化学習

確率分布を用いてモデルパラメータの不確実性を扱うアプローチ

9 用語

📂

サブカテゴリ

確率的多腕バンディット

各腕が未知の確率的報酬分布を持つ、探索と利用のジレンマ問題。

7 用語

📂

サブカテゴリ

強化学習におけるブートストラップ法

価値推定の不確実性を定量化するためのリサンプリング手法

15 用語

📂

サブカテゴリ

強化学習のためのガウス過程

価値関数または遷移関数における不確実性をモデル化するためのガウス過程の利用

10 用語

📂

サブカテゴリ

確率的強化学習におけるアンサンブル手法

学習における認識的不確実性を捉えるための複数の推定量の組み合わせ

19 用語

📂

サブカテゴリ

分布強化学習

リターンの完全な分布を学習し、その数学的期待値だけを学習するのではなく

5 用語

📂

サブカテゴリ

分位数回帰DRL

不確実性をモデル化するために分位数回帰を利用する、分布強化学習の特定のアプローチ。

8 用語

📂

サブカテゴリ

部分観測可能な確率的マルコフ決定過程

部分観測を伴う確率的MDPの拡張であり、状態に関する不確実性を増大させる。

8 用語

📂

サブカテゴリ

強化学習における確率的最適化

勾配および更新におけるノイズと不確実性を考慮した最適化手法

10 用語

AI用語集

確率的マルコフ決定過程

強化学習におけるモンテカルロ法

確率的方策

ベイズ強化学習

確率的多腕バンディット

強化学習におけるブートストラップ法

強化学習のためのガウス過程

確率的強化学習におけるアンサンブル手法

分布強化学習

分位数回帰DRL

部分観測可能な確率的マルコフ決定過程

強化学習における確率的最適化

結果が見つかりません