AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
信念状態 (Belief State)
可能な状態の集合上の確率分布で、観測と行動の履歴を考慮した、エージェントによる現在のシステム状態の推定を表す。
用語
観測関数
システムの実際の状態とエージェントが行った行動を条件として、特定の情報を観測する確率を定義する確率モデル。
用語
観測空間
エージェントが環境から受け取る可能性のあるすべての観測の集合で、実際の状態よりも情報量が少ない場合がある。
用語
信念更新
エージェントが行動を実行し、新しい観測を受け取った後、ベイズフィルタに基づいて信念分布を更新するプロセス。
用語
信念方策
可能な各信念状態を実行すべき行動にマッピングする戦略で、長期的な累積報酬の期待値を最適化する。
用語
ホライズン
エージェントが計画を立てるステップ数で、有限(エピソード)または無限の場合があり、将来の報酬の割引方法に影響を与える。
用語
計画木
可能な行動と観測の系列を探索する木構造のデータ構造で、POMDPにおける最適な方策を評価・選択するために使用される。
用語
ポイントワイズPOMDP価値反復法 (POMDP-PI)
価値関数をアルファベクトルの集合として表現することで、POMDPの最適価値関数を計算する価値反復アルゴリズム。
用語
アルファベクトル (Alpha Vectors)
POMDPにおける価値関数を構成する超平面であり、各ベクトルは行動に関連付けられ、その行動が最適である信念空間の領域を定義する。
用語
Q-MDP
POMDPを解くための近似手法で、信念状態における行動の価値が、その信念の最も確率の高い状態における行動のQ値であると仮定する。
用語
因子化POMDP (Factored POMDP)
状態空間と観測空間が確率変数を用いて構造化されたPOMDPの表現で、依存関係をモデル化し複雑さを軽減することができる。
用語
DEC-POMDP
分散型部分観測マルコフ決定過程の略称で、複数のエージェントが直接的な通信なしに分散的に意思決定を行うPOMDPの拡張。
用語
価値バックアップ (Value Backup)
POMDPアルゴリズムにおける基本操作で、可能な行動と観測から生じる子ノードの価値を考慮して信念ノードの価値を更新する。
🔍