UCBアルゴリズム

📖

用語

UCB1

Hoeffdingの不等式を使用して信頼区間を計算し、定常バンディット設定において対数的な後悔を保証する基本的なUCBアルゴリズム。

📖

用語

UCB1-Tuned

観測された報酬の分散に応じて信頼区間を動的に適応させ、探索を最適化するUCB1の改良版。

📖

用語

UCB-V

分散の推定値を明示的に使用してより正確な信頼区間を構築するUCBアルゴリズムで、特に高分散の報酬に効果的。

📖

用語

UCB-alpha

パラメータalphaが探索の積極性を制御し、探索-活用トレードオフを必要に応じて調整できるUCB1のパラメトリックな一般化。

📖

用語

MOSS (Minimax Optimal Strategy)

残りの総反復回数に応じて信頼区間を適応させ、最悪の場合で最小の後悔を達成する、ミニマックス意味で最適なUCBアルゴリズム。

📖

用語

KL-UCB

Kullback-Leiblerダイバージェンスを使用して漸近的に最適な信頼区間を構築するUCBの変種で、特に境界のある報酬に適している。

📖

用語

Regret logarithmique

累積後悔が時間と共に対数的に成長するUCBアルゴリズムの性能測定で、定常バンディット問題での最適性を特徴付ける。

📖

用語

Optimisme face à l'incertitude

UCBアルゴリズムを導く哲学的・数学的原則で、不確実な行動は最適である可能性があるため探索に値すると仮定する。

📖

用語

信頼度指数

行動の推定に対する統計的な確実性のレベルを定量化する指標で、UCBアルゴリズムの高度な変種における探索の重み付けに使用される。

📖

用語

漸近的最適性

UCBアルゴリズムが漸近的に可能な最低の後悔境界に到達することを保証する理論的性質で、長期的な効率性を特徴づける。

📖

用語

UCB-ノーマル

正規分布に従う報酬のために特別に設計されたUCBの変種で、ガウス分布の正確な性質を活用して最適な境界を達成する。

📖

用語

効率的UCB

大規模問題に対して対数的後悔の理論的保証を維持しながら、最適な計算複雑性を達成するUCBアルゴリズムの族。

📖

用語

アッパーコンフィデンスツリー(UCT)

逐次的意思決定のための探索木にUCB原理を適用したもので、モンテカルロ木探索を使用するAlphaGoなど多くのゲームアルゴリズムの基盤となる。

AI用語集