時間差分学習 - AI用語集

📖

用語

誤差

TD更新前と更新後の推定値の差であり、将来のリターンをより良く予測するように価値推定を調整するための学習信号として機能する。

📖

用語

ブートストラッピング

現在の別の推定値に基づいて推定値を更新する手法で、最終的なリターンを待つ手法よりもオンラインでより高速な学習を可能にする。

📖

用語

TD-MCの組み合わせ

TDブートストラッピングの低バイアスとモンテカルロ法の低分散の利点を活用するハイブリッド戦略であり、エピソディックなタスクにおいてより安定で効率的な学習を実現する。

📖

用語

TD(λ)アルゴリズム

適格性トレースλという係数に基づいて将来のnステップのリターンを重み付けするTD法の一般化であり、TD(0)とモンテカルロの間の連続的なトレードオフを可能にする。

📖

用語

適格性トレース

最近訪問した状態や行動を追跡するメモリメカニズムであり、TD誤差を時間的に遡って伝播させることで学習を加速させる。

📖

用語

バイアス-分散トレードオフ

バイアス（TDブートストラッピングによる）を削減すると分散が増加し、その逆もまた然り（MC法による）という根本的なジレンマであり、最適なパフォーマンスのためにはバランスが必要となる。

📖

用語

オンポリシー更新

評価されるポリシーがデータを生成するために使用されるポリシーと同じである学習プロセスであり、SARSAやオンポリシーTD(λ)アルゴリズムなどで見られる。

📖

用語

状態価値関数 (V(s))

ある状態sから出発して特定のポリシーに従った場合の期待リターンの推定値であり、ポリシー評価におけるTD更新の基礎として機能する。

📖

用語

Q学習アルゴリズム

オフポリシーTD法で、次の状態で可能な限り最良の行動を使用して、直接的に最適な価値関数を学習する。これは、現在のポリシーとは独立している。

📖

用語

リターン値 (Gt)

時間ステップtから得られる将来の報酬の割引された合計で、モンテカルロ法とTD法の学習ターゲットを構成する。

📖

用語

TDターゲット

TDアルゴリズムで現在の価値を更新するために使用される推定値で、即時報酬と将来の価値の推定値を組み合わせる（例：R + γV(s')）。

AI用語集

誤差