POMDP（部分観測マルコフ決定過程）

📖

用語

信念状態 (Belief State)

可能な状態の集合上の確率分布で、観測と行動の履歴を考慮した、エージェントによる現在のシステム状態の推定を表す。

📖

用語

観測関数

システムの実際の状態とエージェントが行った行動を条件として、特定の情報を観測する確率を定義する確率モデル。

📖

用語

観測空間

エージェントが環境から受け取る可能性のあるすべての観測の集合で、実際の状態よりも情報量が少ない場合がある。

📖

用語

信念更新

エージェントが行動を実行し、新しい観測を受け取った後、ベイズフィルタに基づいて信念分布を更新するプロセス。

📖

用語

信念方策

可能な各信念状態を実行すべき行動にマッピングする戦略で、長期的な累積報酬の期待値を最適化する。

📖

用語

ホライズン

エージェントが計画を立てるステップ数で、有限（エピソード）または無限の場合があり、将来の報酬の割引方法に影響を与える。

📖

用語

計画木

可能な行動と観測の系列を探索する木構造のデータ構造で、POMDPにおける最適な方策を評価・選択するために使用される。

📖

用語

ポイントワイズPOMDP価値反復法 (POMDP-PI)

価値関数をアルファベクトルの集合として表現することで、POMDPの最適価値関数を計算する価値反復アルゴリズム。

📖

用語

アルファベクトル (Alpha Vectors)

POMDPにおける価値関数を構成する超平面であり、各ベクトルは行動に関連付けられ、その行動が最適である信念空間の領域を定義する。

📖

用語

Q-MDP

POMDPを解くための近似手法で、信念状態における行動の価値が、その信念の最も確率の高い状態における行動のQ値であると仮定する。

📖

用語

因子化POMDP (Factored POMDP)

状態空間と観測空間が確率変数を用いて構造化されたPOMDPの表現で、依存関係をモデル化し複雑さを軽減することができる。

📖

用語

DEC-POMDP

分散型部分観測マルコフ決定過程の略称で、複数のエージェントが直接的な通信なしに分散的に意思決定を行うPOMDPの拡張。

📖

用語

価値バックアップ (Value Backup)

POMDPアルゴリズムにおける基本操作で、可能な行動と観測から生じる子ノードの価値を考慮して信念ノードの価値を更新する。

AI用語集