Глоссарий ИИ
Полный словарь искусственного интеллекта
Разделенная L2-регуляризация
Разделение уменьшения весов от обновления градиента для применения регуляризации независимо от этапа оптимизации.
Гиперпараметры beta1 и beta2
Коэффициенты, управляющие соответственно экспоненциальным затуханием моментов первого и второго порядка в алгоритме AdamW.
Момент первого порядка
Экспоненциальное скользящее среднее градиентов, захватывающее среднее направление спуска для ускорения сходимости в каньонах ошибок.
Момент второго порядка
Экспоненциальное скользящее среднее квадратов градиентов, оценивающее дисперсию для адаптации скорости обучения в соответствии с локальной кривизной.
Эпсилон стабилизации
Маленькая константа, добавляемая к знаменателю для избежания деления на ноль и обеспечения численной стабильности при нормализации градиентов.
Асимптотическая сходимость
Теоретическое свойство, гарантирующее, что алгоритм достигает критической точки, когда количество итераций стремится к бесконечности при определенных условиях.
Разложение градиента
Векторное разделение градиента на компоненты уменьшения весов и фактического обновления в реализации AdamW.
Холодный запуск смещения
Проблема смещенной оценки моментов на первых итерациях из-за инициализации нулями, исправляемая факторами смещения AdamW.
Фактор затухания веса
Параметр лямбда, контролирующий интенсивность разделенной регуляризации L2, применяемой независимо к каждому обновлению веса.
Адаптивная нормализация
Деление градиента на квадратный корень из его момента второго порядка для нормализации амплитуды обновлений в соответствии с историей градиентов.