Глубокая оптимизация

📖

термины

Момент Нестерова

Вариант алгоритма импульса, который применяет упреждающую коррекцию, вычисляя градиент в оцененной будущей позиции, что ускоряет сходимость и уменьшает колебания.

📖

термины

Adam (Adaptive Moment Estimation)

Алгоритм оптимизации, объединяющий идеи Momentum и RMSprop и использующий оценки первого и второго моментов градиентов для адаптации скорости обучения каждого параметра.

📖

термины

AdaGrad

Адаптивный оптимизатор, который корректирует скорость обучения каждого параметра на основе исторической суммы квадратов его градиентов, отдавая предпочтение редким параметрам.

📖

термины

AdaDelta

Расширение AdaGrad, которое ограничивает окно накопления прошлых градиентов фиксированным размером с помощью скользящего среднего, предотвращая агрессивное снижение скорости обучения.

📖

термины

Затухание скорости обучения

Стратегия постепенного снижения скорости обучения в процессе обучения, часто по заранее заданному расписанию (step, exponential или cosine), для уточнения сходимости к минимуму.

📖

термины

Оптимизатор LAMB (Layer-wise Adaptive Moments)

Алгоритм оптимизации, предназначенный для крупномасштабного обучения, который адаптирует скорость обучения для каждого слоя, используя норму весов и градиентов, и эффективен при работе с очень большими пакетами данных.

📖

термины

Оптимизатор LARS (Layer-wise Adaptive Rate Scaling)

Метод оптимизации, который адаптирует скорость обучения для каждого слоя на основе отношения нормы весов к норме градиентов, особенно подходящий для обучения с большими пакетами данных.

📖

термины

Оптимизатор Lookahead

Механизм оптимизации, который периодически обновляет «медленные» веса в направлении среднего значения «быстрых» весов, генерируемых внутренним оптимизатором, что улучшает обобщение и стабильность сходимости.

📖

термины

RAdam (Rectified Adam)

Вариант Adam, который исправляет дисперсию адаптации скорости обучения на начальных этапах обучения, обеспечивая более стабильную сходимость без необходимости фазы разогрева (warmup).

📖

термины

SWATS (Switching from Adam to SGD)

Стратегия, которая начинает обучение с адаптивного оптимизатора, такого как Adam, для быстрой сходимости, а затем переключается на стохастический градиентный спуск (SGD) для лучшей генерализации.

📖

термины

Оптимизатор Yogi

Модификация Adam, направленная на обеспечение более стабильной сходимости за счет использования менее агрессивного обновления второго момента, что снижает колебания и улучшает производительность на сложных задачах.

📖

термины

Shampoo

Оптимизатор второго порядка, который предобуславливает градиенты, используя блочные приближения матрицы Гессе, ускоряя сходимость для плохо обусловленных задач.

📖

термины

Перезапуск скорости обучения (Learning Rate Restart)

Циклическая техника, при которой скорость обучения периодически сбрасывается до своего начального значения, позволяя модели выходить из локальных минимумов и исследовать новые области пространства решений.

Глоссарий ИИ

Момент Нестерова

Adam (Adaptive Moment Estimation)

AdaGrad

AdaDelta

Затухание скорости обучения

Оптимизатор LAMB (Layer-wise Adaptive Moments)

Оптимизатор LARS (Layer-wise Adaptive Rate Scaling)

Оптимизатор Lookahead

RAdam (Rectified Adam)

SWATS (Switching from Adam to SGD)

Оптимизатор Yogi

Shampoo

Перезапуск скорости обучения (Learning Rate Restart)

Результаты не найдены