人工知能の完全辞典
文脈的バンディットアルゴリズムが異なる行動の報酬を予測するために使用する文脈情報の数学的表現。
次の決定を導くためにモデルの事後分布からサンプルを抽出するアルゴリズム的アプローチで、文脈的バンディットとベイズ最適化で使用される。
文脈と行動に応じて報酬関数をモデリングすることにより、文脈的バンディット問題を解決するためのベイズ最適化の原則の直接適用。