文脈バンディット

📖

用語

LinUCB

線形回帰と上限信頼区間（Upper Confidence Bound）を使用して、連続的なコンテキスト空間における探索と活用のバランスを取るコンテキストualバンディットアルゴリズム。

📖

用語

後悔

最適な累積報酬とアルゴリズムが得た報酬との差を定量化する性能指標で、コンテキストualバンディット戦略の有効性を評価するために不可欠。

📖

用語

コンテキスト

特定の時点での最適な意思決定に影響を与える観測可能な特徴量（features）の集合で、コンテキストualバンディットでのアクションのパーソナライズされた選択の基礎となる。

📖

用語

オフポリシー評価

既存のポリシーによって収集されたデータを使用して、新しいポリシーのパフォーマンスを推定する評価技術で、直接のデプロイメントを必要としない。

📖

用語

ハイパーパラメータ

探索係数やミニバッチサイズなど、収束と性能に影響を与えるコンテキストualバンディットアルゴリズムの設定パラメータ。

📖

用語

バイナリ報酬

コンテキストualバンディットにおけるフィードバックタイプで、結果が成功（1）または失敗（0）に制限され、推薦システムや広告アプリケーションで一般的。

📖

用語

ロジスティックバンディット

コンテキストに基づいてバイナリ報酬の確率をモデル化するためにロジスティック回帰を使用するコンテキストualバンディットの変種で、特に分類問題に適している。

📖

用語

ニューラルバンディット

コンテキストと報酬の間の複雑な関係をモデル化するためにニューラルネットワークを使用するコンテキストualバンディットアプローチで、データ内の非線形性を捉えることができる。

📖

用語

ポリシー勾配法

Contextual banditsにおいて、値をまず推定するのではなく、期待報酬を直接最大化するようにパラメータを調整することで、ポリシーを直接最適化する手法。

📖

用語

文脈付きUCB

UCBの原則と文脈モデルを組み合わせ、理論的リグレットの上限とパフォーマンス保証を確保するアルゴリズムのファミリー。

AI用語集