好奇心駆動型強化学習

📖

用語

好奇心駆動型強化学習

エージェントが好奇心に基づいて内部的報酬を生成し、外的報酬が希少な複雑な環境での探索を奨励する強化学習のアプローチ。

📖

用語

内的動機づけ

エージェントをタスク固有の外部報酬ではなく、好奇心のような内部的要求を満たすために行動させる計算論的心理メカニズム。

📖

用語

予測誤差

環境モデルの予測と実際の観測との差異を測定するもので、予期しない状態の探索を奨励するための好奇心のシグナルとして使用される。

📖

用語

内在的好奇心モジュール（ICM）

予測の不確実性に基づいて内的報酬を生成し、探索を導く順・逆ダイナミクスモデルで構成されるニューラルアーキテクチャ。

📖

用語

ランダムネットワーク蒸留（RND）

固定されたランダムなニューラルネットワークを予測ネットワークのターゲットとして使用し、予測誤差を新しい状態に対する内的報酬として利用する探索手法。

📖

用語

カウントベース探索

状態の訪問頻度に反比例する好奇心ボーナスを割り当て、探索されていない領域の発見を奨励する探索戦略。

📖

用語

疑似カウント

連続または高次元空間における状態の訪問頻度の近似推定で、カウントに基づく好奇心ボーナスを実装するために使用される。

📖

用語

エンパワーメント

エージェントが環境に及ぼす制御を定量化する情報量測度で、エージェントの影響を増大させる探索的行動を奨励するために最大化される。

📖

用語

情報利得

エージェントが環境について新しく獲得する情報量で、最も情報量の多い領域への探索を導くための内在的シグナルとして使用される。

📖

用語

エピソード的好奇心

短期記憶に基づく好奇心アプローチで、エージェントが現在のエピソードで最近観察された状態とは異なる状態を訪れるように動機付けられる。

📖

用語

変分情報最大化探索 (VIME)

モデルパラメータと将来の観測間の相互情報量を最大化する探索手法で、ベイズ的アプローチを用いて不確実性を定量化する。

📖

用語

状態訪問回数

特定の状態が訪問された回数を数えるもので、稀または未探索の状態の発見を促進する探索ボーナスを計算するために使用される。

📖

用語

好奇心駆動型探索

エージェントが事前に定義されたランダムな探索戦略ではなく、新規性や驚きに基づく内在的報酬によって導かれる探索パラダイム。

📖

用語

生涯的好奇心

エージェントが長期間にわたって探索的動機を維持し、変化する環境で新しい知識を発見するために継続的に行動を適応させる能力。

📖

用語

新規性検出

過去の経験と大きく異なる観測や状態を識別するプロセスで、好奇心シグナルを生成するための基礎として機能する。

📖

用語

Go-Explore

訪問された状態と対応する軌跡を明示的に記憶し、次にこれらのアンカーポイントから体系的に探索して新しい領域を発見する探索アルゴリズム。

AI用語集