Глоссарий ИИ
Полный словарь искусственного интеллекта
RMSprop
Адаптивный метод оптимизации, использующий взвешенное скользящее среднее квадратов градиентов для нормализации скорости обучения, что предотвращает колебания и ускоряет сходимость.
AdaGrad
Алгоритм оптимизации, который адаптирует скорость обучения каждого параметра на основе исторической суммы квадратов градиентов, позволяя выполнять большие обновления для редких параметров.
AdaDelta
Расширение AdaGrad, решающее проблему монотонного убывания скорости обучения за счет использования скользящего окна прошлых градиентов вместо накопленной суммы.
Затухание весов (Weight Decay)
Метод регуляризации, который штрафует большие веса путем добавления L2-члена к функции потерь, помогая предотвратить переобучение и улучшить обобщение.
Параметры бета (Adam)
Гиперпараметры β1 и β2, контролирующие соответственно коэффициенты экспоненциального затухания для скользящего среднего градиента (момент первого порядка) и его дисперсии (момент второго порядка).
Коррекция смещения
Механизм в Adam, который корректирует начальное смещение оценок моментов в сторону нуля, обеспечивая несмещенные оценки, что особенно важно на первых шагах обучения.
Экспоненциальное скользящее среднее (EMA)
Техника сглаживания, придающая больший вес недавним наблюдениям, используемая в адаптивных оптимизаторах для оценки моментов градиентов.
YOGI
Вариант Adam, использующий адаптивный контроллер дисперсии для стабилизации обучения, особенно эффективен, когда данные имеют нестационарные распределения или зашумленные градиенты.
Циклические скорости обучения
Стратегия, которая циклически изменяет скорость обучения между минимальными и максимальными границами, позволяя модели избегать локальных минимумов и исследовать различные бассейны притяжения.