モンテカルロ木探索の計画

📖

用語

モンテカルロ木探索 (MCTS)

ヒューリスティック探索アルゴリズム。決定過程における意思決定に使用され、ランダムシミュレーションに基づいてノードのポテンシャルを評価しながら部分探索木を構築する。

📖

用語

木探索による計画

木構造を使用して将来の可能なアクションシーケンスを探索し、特定の状態から従うべき最適なポリシーを決定するプロセス。

📖

用語

学習された遷移モデル

現在の状態と選択されたアクションに基づいて環境の次の状態を予測するために訓練された関数またはニューラルネットワーク。探索木のブランチをシミュレートするために使用される。

📖

用語

上限信頼区間 (UCB1)

MCTSの選択フェーズで使用される活用と探索のバランスを取る公式。平均価値が高く、あまり探索されていないアクションを優先して最も有望な子ノードを選択する。

📖

用語

ノード展開

MCTSのフェーズで、選択されたノードから探索木に新しい子ノードを追加する。まだ探索されていない状態-アクションを表す。

📖

用語

状態表現

環境の状態のエンコーディング。多くの場合テンソルまたはベクトルの形式で、計画のために遷移モデルと報酬モデルへの入力として機能する。

📖

用語

想像拡張エージェント (I2A)

学習モデルを備えたMCTSベースの計画モジュールを統合したエージェントアーキテクチャ。エージェントが意思決定前にアクションの将来の結果を想像して評価することを可能にする。

📖

用語

価値ガイド木探索

MCTSの変種で、シミュレーション（ロールアウト）フェーズの代わりに価値ニューラルネットワークを直接使用してノードのリターンを推定し、探索を高速化する。

📖

用語

ルートポリシー関数

ルート状態からの可能なアクションに関する確率分布で、通常はニューラルネットワークから生成され、MCTSの選択フェーズをバイアスして最適なアクションへの収束を加速するために使用されます。

📖

用語

オンライン計画

各タイムステップで現在の状態から木の探索を行い、最適な即時アクションを決定するアプローチで、事前計算されたオフライン計画とは対照的です。

📖

用語

非対称探索木

MCTSの特徴で、木が非一様に成長し、最も有望なブランチを深掘りし、他のブランチを無視するため、広大なアクション空間で非常に効率的です。

📖

用語

モデルベース強化学習

エージェントが環境のモデルを学習し、そのモデルをMCTSのような計画プロセスで使用して、各更新時に環境との実際の相互作用を必要とせずにポリシーを改善するAIパラダイムです。

AI用語集