バンディット強化学習

📂

サブカテゴリ

古典的な多腕バンディット

エージェントが累積報酬を最大化するために複数の選択肢から選ぶ基本的な問題。

10 用語

📂

サブカテゴリ

ε-グリーディアルゴリズム

確率1-εで既知の最適な行動を活用し、確率εでランダムに探索する戦略。

10 用語

📂

サブカテゴリ

UCBアルゴリズム

統計区間を介して探索と活用をバランスさせる、信頼性の上限に基づく手法。

13 用語

📂

サブカテゴリ

トンプソンサンプリング

ベイズ的アプローチで、事後分布に従ってパラメータをサンプリングし、意思決定を行う手法。

0 用語

📂

サブカテゴリ

文脈バンディット

各ラウンドで観察される文脈的特徴量に基づいて意思決定を行う拡張モデル。

10 用語

📂

サブカテゴリ

線形バンディット

期待報酬が文脈特徴の線形関数であるモデル

12 用語

📂

サブカテゴリ

非定常バンディット問題

報酬の分布が時間とともに変化し、継続的な適応が必要となる枠組み。

13 用語

📂

サブカテゴリ

組み合わせバンディット

エージェントが構造的制約の下で同時に複数のアクションのセットを選択する問題。

10 用語

📂

サブカテゴリ

敵対的バンディット

エージェントの報酬を最小化するために、敵対者が報酬を選択するシナリオ。

10 用語

📂

サブカテゴリ

カスケードバンディット

ユーザーがいずれかをクリックするまでアイテムが順次提示されるモデル。

14 用語

📂

サブカテゴリ

限定されたフィードバックのあるバンディット問題

各アクション後に報酬に関する部分的な情報のみが観測される状況

14 用語

📂

サブカテゴリ

オンライン広告のためのバンディット

広告キャンペーンのリアルタイム最適化のための特定のアプリケーション

8 用語

📂

サブカテゴリ

バンディットによるA/Bテスト

ウェブ体験の最適化における、従来のA/Bテストに代わる賢い代替手段。

5 用語

📂

サブカテゴリ

レコメンデーションのためのバンディットアルゴリズム

レコメンデーションをパーソナライズするためにユーザーの嗜好を学習するシステム

7 用語

📂

サブカテゴリ

階層的バンディット

複雑な問題のために意思決定が階層的に構成された多階層構造。

10 用語

AI用語集

古典的な多腕バンディット

ε-グリーディアルゴリズム

UCBアルゴリズム

トンプソンサンプリング

文脈バンディット

線形バンディット

非定常バンディット問題

組み合わせバンディット

敵対的バンディット

カスケードバンディット

限定されたフィードバックのあるバンディット問題

オンライン広告のためのバンディット

バンディットによるA/Bテスト

レコメンデーションのためのバンディットアルゴリズム

階層的バンディット

結果が見つかりません