Глоссарий ИИ
Полный словарь искусственного интеллекта
Момент Нестерова
Вариант алгоритма импульса, который применяет упреждающую коррекцию, вычисляя градиент в оцененной будущей позиции, что ускоряет сходимость и уменьшает колебания.
Adam (Adaptive Moment Estimation)
Алгоритм оптимизации, объединяющий идеи Momentum и RMSprop и использующий оценки первого и второго моментов градиентов для адаптации скорости обучения каждого параметра.
AdaGrad
Адаптивный оптимизатор, который корректирует скорость обучения каждого параметра на основе исторической суммы квадратов его градиентов, отдавая предпочтение редким параметрам.
AdaDelta
Расширение AdaGrad, которое ограничивает окно накопления прошлых градиентов фиксированным размером с помощью скользящего среднего, предотвращая агрессивное снижение скорости обучения.
Затухание скорости обучения
Стратегия постепенного снижения скорости обучения в процессе обучения, часто по заранее заданному расписанию (step, exponential или cosine), для уточнения сходимости к минимуму.
Оптимизатор LAMB (Layer-wise Adaptive Moments)
Алгоритм оптимизации, предназначенный для крупномасштабного обучения, который адаптирует скорость обучения для каждого слоя, используя норму весов и градиентов, и эффективен при работе с очень большими пакетами данных.
Оптимизатор LARS (Layer-wise Adaptive Rate Scaling)
Метод оптимизации, который адаптирует скорость обучения для каждого слоя на основе отношения нормы весов к норме градиентов, особенно подходящий для обучения с большими пакетами данных.
Оптимизатор Lookahead
Механизм оптимизации, который периодически обновляет «медленные» веса в направлении среднего значения «быстрых» весов, генерируемых внутренним оптимизатором, что улучшает обобщение и стабильность сходимости.
RAdam (Rectified Adam)
Вариант Adam, который исправляет дисперсию адаптации скорости обучения на начальных этапах обучения, обеспечивая более стабильную сходимость без необходимости фазы разогрева (warmup).
SWATS (Switching from Adam to SGD)
Стратегия, которая начинает обучение с адаптивного оптимизатора, такого как Adam, для быстрой сходимости, а затем переключается на стохастический градиентный спуск (SGD) для лучшей генерализации.
Оптимизатор Yogi
Модификация Adam, направленная на обеспечение более стабильной сходимости за счет использования менее агрессивного обновления второго момента, что снижает колебания и улучшает производительность на сложных задачах.
Shampoo
Оптимизатор второго порядка, который предобуславливает градиенты, используя блочные приближения матрицы Гессе, ускоряя сходимость для плохо обусловленных задач.
Перезапуск скорости обучения (Learning Rate Restart)
Циклическая техника, при которой скорость обучения периодически сбрасывается до своего начального значения, позволяя модели выходить из локальных минимумов и исследовать новые области пространства решений.