人工知能の完全辞典
エージェントの学習をより効果的に導くために報酬関数を修正する手法です。最適性を保ちつつ、望ましい解への収束を加速させる必要があります。
報酬が未知の複数の選択肢の中から選択を行わなければならない、簡略化された逐次最適化問題です。最適化の文脈における探索と活用を理解するために不可欠です。
エージェントが「学習することを学ぶ」パラダイムであり、新しい最適化タスクへ迅速に適応する能力を開発します。強化学習とメタ学習の原理を組み合わせています。