AI用語集
人工知能の完全辞典
強化学習におけるブートストラップ
強化学習で使用されるリサンプリング手法で、単一のデータサンプルから複数の推定値を作成することにより、価値関数の不確実性を推定するために用いられる。
ブートストラップ価値分布
複数のブートストラップ推定値を集約することによって得られる価値関数の確率的表現であり、価値予測の不確実性を定量化することを可能にする。
重み付きブートストラップ
ブートストラップサンプルに、その関連性や新しさに基づいて重みを割り当てる手法であり、価値推定においてより情報量の多い経験を重視するようにする。
ブートストラップ付きQ学習
異なるブートストラップサンプルで学習させた複数のQ値ヘッドを使用して、不確実性を捉え、探索を改善する、古典的なQ学習の拡張版。
C51 (Categorical 51)
リターンの分布を51個の確率アトム(原子)に離散化する分布型アルゴリズムであり、この表現における不確実性を推定するためにブートストラップ手法を使用する。
IQN (Implicit Quantile Networks)
リターンの分位数分布を直接学習するネットワークアーキテクチャで、分位数予測の不確実性を定量化するためにブートストラップメカニズムを統合している。
QR-DQN (Quantile Regression DQN)
ブートストラップサンプル上で分位数回帰を使用し、不確実性の定量化とともに行動価値の完全な分布を学習する、DQNの変種。
ブートストラップヘッドネットワーク
価値予測における不確実性を捉えるために、異なるブートストラップサンプルで学習した複数の独立した出力ヘッドを含むアーキテクチャ。
不確実性ベースの探索
ブートストラップ推定を用いて不確実性を定量化し、エージェントを環境の最も知られていない状態へ誘導する探索戦略。
ブートストラップアンサンブル
学習プロセスの変動性と不確実性を捉える予測アンサンブルを形成するために、異なるブートストラップサンプル上で複数のモデルを訓練する手法。
ブートストラップ近似としてのドロップアウト
複数のモデルを訓練することなく、不確実性を迅速に推定するために、推論中にドロップアウトを効率的なブートストラップ近似として使用する技術。
信用区間
指定された信頼確率を持つ価値推定の不確実性を定量化する、ブートストラップ分布から導出された統計的区間。
ブートストラップ分散
価値予測における認識論的不確実性の直接的な指標となる、ブートストラップ推定値間の分散を定量化する指標。
ブートストラップバイアス
ブートストラップ法によって潜在的に導入される系統的な偏差であり、不偏推定を行うためにダブルブートストラップのような修正技術を必要とする。
逐次ブートストラップ
リサンプリング時に逐次的依存構造を保持して不確実性の過小評価を防ぐ、強化学習の時系列データに適応した変種。