AI用語集
人工知能の完全辞典
SVRG (Stochastic Variance Reduced Gradient)
分散を低減するために、周期的な完全な勾配計算と確率的な更新を組み合わせる最適化アルゴリズム。SVRGは、確率的勾配の推定値を修正するために、完全な勾配の参照(スナップショット)を維持します。
SAGA
各データポイントの過去の勾配のテーブルを使用し、各反復で修正を行う分散低減手法。SAGAは、SAGとSVRGの利点を組み合わせ、凸問題に対して線形収束が保証されています。
SAG (Stochastic Average Gradient)
各データポイントの過去の勾配をメモリに保持し、それらを増分的に更新する最適化アルゴリズム。SAGは、過去の勾配の平均を参照推定値として使用することで分散を低減します。
Mini-batch
各反復で勾配推定値を計算するために使用される、完全なデータセットの中間サイズのサブセット。ミニバッチは、純粋なSGDと比較して分散を低減し、完全な勾配よりも効率的です。
Control variates
相関のある制御変数を導入することによって推定値の分散を低減するために使用される統計的手法。確率的最適化において、Control variatesは低分散の参照を使用して勾配推定値を修正します。
Gradient snapshot
SVRGなどの分散低減アルゴリズムで定期的に保存される完全な勾配の計算。スナップショットは、完全な更新の間に確率的勾配推定値を修正するための参照として機能します。
Linear convergence
強凸問題において、誤差が反復回数に応じて指数関数的に減少する収束率。SVRGやSAGAのような分散低減手法は、特定の条件下で線形収束を達成します。
Gradient variance
データのランダムサンプリングに起因する確率的勾配推定値の変動性の尺度。この分散を低減することが、収束を改善するためのSVRGやSAGAの手法の主な目的です。
空間計算量
アルゴリズムが計算に必要な情報を格納するために必要なメモリ容量。SAGおよびSAGAは過去の勾配を格納するためにO(n)のメモリを必要とするのに対し、SVRGはO(1)の追加メモリしか必要としない。
強凸性
曲率が正の定数によって下から有界である関数の性質。強凸性は、分散低減法の線形収束を保証するための重要な条件である。
近接作用素
正則化項を含めるために凸集合への射影を一般化した数学的演算。分散低減法は、非微分可能な問題を扱うために近接作用素と組み合わせることができる。
確率的勾配推定量
データのランダムな部分集合に基づいて計算される、真の勾配の不偏推定量。分散低減手法は、バイアスをゼロに保ちながら分散を低減するように、この推定量を修正する。
分散の上界
分散低減アルゴリズムによって保証される、勾配推定の分散に関する理論的上限。この境界は、問題の条件数や最適解からの距離に関連することが多い。
SARAH (StochAstic Recursive gAdient algoritHm)
各反復で勾配推定量を更新するために再帰的なアプローチを使用する分散低減アルゴリズム。SARAHは、SVRGと加速勾配法のアイデアを組み合わせており、収束が保証されている。