AI用語集
人工知能の完全辞典
コンテクチュアルバンディット
観察されたコンテキストに基づいて最適な行動を動的に選択し、累積報酬を最大化する強化学習アルゴリズム。
探索と活用のトレードオフ
アルゴリズムが新しい選択肢の発見と、高性能として知られている選択肢の活用とのバランスを取る必要がある根本的なジレンマ。
上方信頼区間
期待報酬の信頼区間の上限に基づいてアームを選択し、不確実な行動の探索を促進する戦略。
トンプソンサンプリング
報酬パラメータを事後分布からサンプリングし、確率的な意思決定を行うベイズ的アルゴリズム。
LinUCB
期待報酬をコンテキストの線形関数としてモデル化し、高次元のコンテキスト空間に適したUCBの拡張。
コンテキスト特徴量
コンテクチュアルバンディットにおいて、環境の現在の状態を特徴付け、最適な行動選択に影響を与える記述変数。
リグレット最小化
獲得した累積報酬と最適ポリシーのそれとの差を最小化することを目標とし、アルゴリズムの性能を測定する指標。
多腕バンディット
エージェントが未知の報酬分布を持つ複数の選択肢(アーム)の中から選択し、獲得を最大化する必要がある基本的な問題。
報酬関数
特定の状況で行動を取った後に得られる即時のリターンを定量化し、アルゴリズムの学習を導く数学的関数。
アーム選択
現在の報酬推定値と観測された状況に基づいて、利用可能なオプションから最適な行動を選択するプロセス。
期待報酬
特定の状況で特定の行動に対する報酬の予測平均値で、履歴観測から計算される。
行動価値関数
状況'x'で行動'a'を取った場合の期待未来報酬を推定する関数Q(a,x)で、ポリシー評価の基礎となる。
オンライン学習
新しいデータが到着するにつれてモデルが継続的に調整され、完全な再トレーニングを必要としない学習パラダイム。
確率的文脈バンディット
各状況-行動ペアに対して報酬が独立かつ同一分布の確率分布に従うバリアント。
ニューラルバンディット
価値関数またはポリシーを近似するためにニューラルネットワークを使用するアプローチで、複雑な非線形関係を捉えることができる。