MuZero

📖

用語

強化学習アルゴリズムで、環境のダイナミクスに関する事前知識なしに、遷移モデル、報酬モデル、価値モデルを同時に学習します。

📖

用語

価値モデル

MuZero内のニューラルネットワークで、将来の状態の期待値を推定し、計画プロセスを最も有望な行動へと導きます。

📖

用語

MCTS (Monte Carlo Tree Search)

MuZeroで使用される木探索アルゴリズムで、シミュレーションにおいて活用と探索をバランスさせることで、将来の行動空間を効率的に探索します。

📖

用語

計画

MuZeroが学習したモデルを使用して、実行する最適な行動を選択する前に、異なる行動シーケンスをシミュレーションし評価するプロセスです。

📖

用語

AlphaZero

MuZeroの前身となるアルゴリズムで、MuZeroが環境モデルを動的に学習するのに対し、ゲームのルールに関する知識が必要でした。

📖

用語

自己対局

MuZeroが自身と対戦して学習データを生成する訓練方法で、人間の介入なしに継続的な改善を可能にします。

📖

用語

リプレイバッファ

過去の経験を格納するデータ構造で、MuZeroがネットワークを効果的かつ安定的に訓練するために再利用します。

📖

用語

計画における汎化

MuZeroが学習したモデルを訓練時に見たことのない新しい状況に適用する能力で、顕著な堅牢性を示します。

📖

用語

バリューネットワーク

特定の状態から期待される将来の報酬の合計を予測することにより、その状態の品質を評価するニューラルネットワーク。

📖

用語

ポリシーネットワーク

MCTS探索中の探索を導くために、可能なアクションに対する確率分布を提案するMuZeroのコンポーネント。

📖

用語

ブートストラップ

MuZeroが自身の予測を使用して反復的に改善する手法で、外部の監督なしに自己改善サイクルを作り出します。

📖

用語

イメージネーションラーニング

MuZeroが実際の相互作用ではなく内部シミュレーションから学習するプロセスで、状態空間を効率的に探索することを可能にします。

📖

用語

サーチポリシー

MCTS探索中にどのアクションを探索するかを選択するためにMuZeroが使用する戦略で、探索と活用のトレードオフを最適化します。

AI用語集