Глоссарий ИИ
Полный словарь искусственного интеллекта
SVRG (Stochastic Variance Reduced Gradient)
Алгоритм оптимизации, который объединяет периодические вычисления полного градиента со стохастическими обновлениями для уменьшения дисперсии. SVRG поддерживает эталон полного градиента для корректировки оценок стохастического градиента.
SAGA
Метод уменьшения дисперсии, который использует таблицу исторических градиентов для каждой точки данных и выполняет корректировки на каждой итерации. SAGA объединяет преимущества SAG и SVRG с гарантированной линейной сходимостью для выпуклых задач.
SAG (Stochastic Average Gradient)
Алгоритм оптимизации, который хранит в памяти предыдущие градиенты для каждой точки данных и обновляет их инкрементально. SAG уменьшает дисперсию, используя среднее значение исторических градиентов в качестве эталонной оценки.
Mini-batch
Подмножество среднего размера из полного набора данных, используемое для вычисления оценок градиента на каждой итерации. Мини-пакеты уменьшают дисперсию по сравнению с чистым SGD, оставаясь при этом более эффективными, чем полные градиенты.
Control variates
Статистический метод, используемый для уменьшения дисперсии оценок путем введения коррелированной контрольной переменной. В стохастической оптимизации контрольные вариаты корректируют оценки градиента, используя эталон с низкой дисперсией.
Gradient snapshot
Полное вычисление градиента, периодически сохраняемое в алгоритмах уменьшения дисперсии, таких как SVRG. Снимок служит эталоном для корректировки оценок стохастического градиента между полными обновлениями.
Linear convergence
Скорость сходимости, при которой ошибка убывает экспоненциально с числом итераций для сильно выпуклых задач. Методы уменьшения дисперсии, такие как SVRG и SAGA, достигают линейной сходимости при определенных условиях.
Gradient variance
Мера изменчивости оценок стохастического градиента, обусловленная случайной выборкой данных. Уменьшение этой дисперсии является основной целью методов SVRG и SAGA для улучшения сходимости.
Memory complexity
Объем памяти, требуемый алгоритмом для хранения информации, необходимой для вычислений. SAG и SAGA требуют памяти O(n) для хранения исторических градиентов, в то время как SVRG требует только O(1) дополнительной памяти.
Strong convexity
Свойство функции, при котором ее кривизна ограничена снизу положительной константой. Сильная выпуклость является ключевым условием, гарантирующим линейную сходимость методов снижения дисперсии.
Proximal operator
Математическая операция, обобщающая проекцию на выпуклое множество для включения членов регуляризации. Методы снижения дисперсии могут быть объединены с проксимальными операторами для решения недифференцируемых задач.
Stochastic gradient estimator
Несмещенная оценка истинного градиента, вычисленная на случайном подмножестве данных. Методы снижения дисперсии модифицируют эту оценку для уменьшения ее дисперсии при сохранении нулевого смещения.
Variance bound
Теоретическая верхняя граница дисперсии оценок градиента, гарантируемая алгоритмами снижения дисперсии. Эта граница часто связана с обусловленностью задачи и расстоянием до оптимума.
SARAH (StochAstic Recursive gAdient algoritHm)
Алгоритм снижения дисперсии, использующий рекурсивный подход для обновления оценки градиента на каждой итерации. SARAH объединяет идеи SVRG и методов ускоренного градиента с гарантированной сходимостью.