Методы снижения дисперсии

📖

термины

SVRG (Stochastic Variance Reduced Gradient)

Алгоритм оптимизации, который объединяет периодические вычисления полного градиента со стохастическими обновлениями для уменьшения дисперсии. SVRG поддерживает эталон полного градиента для корректировки оценок стохастического градиента.

📖

термины

SAGA

Метод уменьшения дисперсии, который использует таблицу исторических градиентов для каждой точки данных и выполняет корректировки на каждой итерации. SAGA объединяет преимущества SAG и SVRG с гарантированной линейной сходимостью для выпуклых задач.

📖

термины

SAG (Stochastic Average Gradient)

Алгоритм оптимизации, который хранит в памяти предыдущие градиенты для каждой точки данных и обновляет их инкрементально. SAG уменьшает дисперсию, используя среднее значение исторических градиентов в качестве эталонной оценки.

📖

термины

Mini-batch

Подмножество среднего размера из полного набора данных, используемое для вычисления оценок градиента на каждой итерации. Мини-пакеты уменьшают дисперсию по сравнению с чистым SGD, оставаясь при этом более эффективными, чем полные градиенты.

📖

термины

Control variates

Статистический метод, используемый для уменьшения дисперсии оценок путем введения коррелированной контрольной переменной. В стохастической оптимизации контрольные вариаты корректируют оценки градиента, используя эталон с низкой дисперсией.

📖

термины

Gradient snapshot

Полное вычисление градиента, периодически сохраняемое в алгоритмах уменьшения дисперсии, таких как SVRG. Снимок служит эталоном для корректировки оценок стохастического градиента между полными обновлениями.

📖

термины

Linear convergence

Скорость сходимости, при которой ошибка убывает экспоненциально с числом итераций для сильно выпуклых задач. Методы уменьшения дисперсии, такие как SVRG и SAGA, достигают линейной сходимости при определенных условиях.

📖

термины

Gradient variance

Мера изменчивости оценок стохастического градиента, обусловленная случайной выборкой данных. Уменьшение этой дисперсии является основной целью методов SVRG и SAGA для улучшения сходимости.

📖

термины

Memory complexity

Объем памяти, требуемый алгоритмом для хранения информации, необходимой для вычислений. SAG и SAGA требуют памяти O(n) для хранения исторических градиентов, в то время как SVRG требует только O(1) дополнительной памяти.

📖

термины

Strong convexity

Свойство функции, при котором ее кривизна ограничена снизу положительной константой. Сильная выпуклость является ключевым условием, гарантирующим линейную сходимость методов снижения дисперсии.

📖

термины

Proximal operator

Математическая операция, обобщающая проекцию на выпуклое множество для включения членов регуляризации. Методы снижения дисперсии могут быть объединены с проксимальными операторами для решения недифференцируемых задач.

📖

термины

Stochastic gradient estimator

Несмещенная оценка истинного градиента, вычисленная на случайном подмножестве данных. Методы снижения дисперсии модифицируют эту оценку для уменьшения ее дисперсии при сохранении нулевого смещения.

📖

термины

Variance bound

Теоретическая верхняя граница дисперсии оценок градиента, гарантируемая алгоритмами снижения дисперсии. Эта граница часто связана с обусловленностью задачи и расстоянием до оптимума.

📖

термины

SARAH (StochAstic Recursive gAdient algoritHm)

Алгоритм снижения дисперсии, использующий рекурсивный подход для обновления оценки градиента на каждой итерации. SARAH объединяет идеи SVRG и методов ускоренного градиента с гарантированной сходимостью.

Глоссарий ИИ

SVRG (Stochastic Variance Reduced Gradient)

SAGA

SAG (Stochastic Average Gradient)

Mini-batch

Control variates

Gradient snapshot

Linear convergence

Gradient variance

Memory complexity

Strong convexity

Proximal operator

Stochastic gradient estimator

Variance bound

SARAH (StochAstic Recursive gAdient algoritHm)

Результаты не найдены