オンライン最適化

📖

用語

バンディットアルゴリズム

エージェントが不確実な報酬を持つ行動を逐次選択し、累積利得を最大化するオンライン学習アルゴリズムの一族。

📖

用語

フォロー・ザ・リーダー（FTL）

各ステップで、これまで観測された過去データにおいて最適であった行動を選択するオンライン最適化戦略。

📖

用語

正則化付きフォロー・ザ・リーダー（FTRL）

逐次決定を安定化させ、敵対的環境でのより良いリグレット境界を保証するために正則化を組み込んだFTLの変種。

📖

用語

オンライン勾配降下法

各新しい観測値で計算された損失関数の勾配と逆方向にモデルパラメータを更新する最適化アルゴリズム。

📖

用語

乗法的重み更新

専門家の過去の性能に基づいて指数関数的に重みを調整し、彼らの予測を組み合わせるオンライン最適化手法。

📖

用語

専門家アドバイス

アルゴリズムが複数の専門家の推奨を集約し、最良の専門家に対するリグレットを最小化する必要があるオンライン学習の枠組み。

📖

用語

オンライン凸最適化

損失関数が時間の経過とともに徐々に明らかにされる凸関数の逐次最適化を研究する数学理論。

📖

用語

敵対的オンライン学習

アルゴリズムのリグレットを最大化しようとする潜在的に悪意のある敵対者によってデータが生成されるオンライン学習のシナリオ。

📖

用語

探索と活用のトレードオフ

オンライン学習における基本的なジレンマで、新しい行動を探索してその報酬を発見することと、既知の高性能な行動を活用することの間のバランスを取ること。

📖

用語

オンラインミラー降下法

ブレグマン関数を用いて制約空間内で更新を投影する勾配降下法の一般化で、最適化において優れた柔軟性を提供する。

📖

用語

部分情報学習

アルゴリズムが選択した行動のみについて情報を受け取り（バンディット）、可能な全ての行動についての情報（完全情報）を受け取らないパラダイム。

📖

用語

適応学習率

非定常環境での収束を最適化するため、損失関数の局所的特性に基づいて学習率を動的に調整する仕組み。

📖

用語

ヘッジアルゴリズム

重みの乗法的更新を用いた専門家集約アルゴリズムで、最良の専門家に対する対数的な後悔の限界を保証する。

📖

用語

後悔限界

アルゴリズムが被る累積後悔の理論的上限で、オンライン最適化手法の性能を比較・保証することを可能にする。

📖

用語

確率的オンライン学習

データが固定された未知の確率分布に従う学習フレームワークで、最悪ケースではなく期待値での性能保証を可能にする。

AI用語集