AI用語集
人工知能の完全辞典
ダイナミクスモデル
エージェントが学習するモデルで、現在の状態と実行されたアクションを与えられたときに環境の進化、つまり次の状態または次の観測を予測します。このモデルの品質は、モデルベースの好奇心学習において中心的です。
内在的好奇心モジュール(ICM)
特徴空間における次の状態を予測するモジュールと、アクションを予測する逆モジュールを組み合わせた特定のニューラルネットワークアーキテクチャ。フォワードモジュールの予測誤差は内在的報酬として使用されます。
好奇心による探査
エージェントが予測誤差などの内部シグナルによって測定される学習を最大化する環境の状態を訪れる動機付けられる探査戦略。エージェントは知らないことを積極的に探します。
ランダムテレビ問題
好奇心学習における主要な課題で、エージェントがテレビの静的な画面のような予測不可能だが役に立たないエントロピー源に執着してしまう可能性があることです。これは環境のダイナミクスに関する有意義な学習なしに高い内在的報酬につながります。
潜在状態空間
ニューラルネットワークによって学習される環境の圧縮され抽象的な表現で、ダイナミクスモデルが予測を学習する空間。この空間で作業することは複雑さを軽減し、予測に関連する特性に集中するのに役立ちます。
内在的報酬の形成
内在的報酬シグナルの設計と重み付けのプロセスで、しばしばタスクの外的報酬と組み合わせられます。良い形成は探査と活用のバランスを取るために重要です。
モデル学習
MBRLエージェントが環境との相互作用を通じてダイナミクスモデルを改善するプロセス。このプロセスは反復的です:モデルは探査に使用され、収集された新しいデータはモデルを改良するために使用されます。
モデルベースの驚き
エージェントの経験が内部の世界モデルの期待と矛盾する状況を指す概念。モデルベースシステムでは、驚きはモデルの予測誤差によって直接測定されます。
予測ネットワーク
動的モデルにおける次の潜在状態の予測を生成するニューラルコンポーネント。損失関数で評価されるその性能は、好奇心シグナルを直接決定します。
内発的強化学習の枠組み
エージェントの目的関数が外的報酬(タスク関連)と内的報酬(探索関連)の加重和である強化学習のための一般的な構造。
変分情報最大化による探索 (VIME)
環境モデルのパラメータに関する獲得情報を最大化するために変分推論を使用する形式的な方法。理論的に根拠のある好奇心の測定を提供し、いくつかの落とし穴を回避します。
好奇心の境界
エージェントの好奇心を制限し、未知かつ制御可能/学習可能な環境の側面に誘導することを目的とするメカニズムまたは理論的制約。これにより、ランダムなテレビの問題を緩和するのに役立ちます。