Глоссарий ИИ
Полный словарь искусственного интеллекта
Адаптивная скорость обучения
Механизм автоматической настройки скорости обучения во время тренировки, изменяющий величину обновлений параметров в соответствии с локальными характеристиками ландшафта функции потерь.
Историческая сумма квадратов градиентов
Экспоненциальное накопление квадратов прошлых градиентов, используемое в Adagrad для нормализации обновлений параметров, штрафуя частые высокие градиенты и способствуя направлениям с исторически низкими градиентами.
Диагональный масштабирующий множитель
Диагональная матрица, предобуславливающая градиент в Adagrad, каждый элемент которой представляет квадратный корень из накопленной суммы квадратов градиентов для каждого отдельного параметра.
Выпуклая функция потерь
Целевая функция, где любая прямая линия между двумя точками поверхности находится над поверхностью, гарантируя отсутствие локальных минимумов и глобальную сходимость методов градиентного спуска.
Норма градиента
Мера величины вектора градиента, используемая в Adagrad для определения того, подвергался ли параметр значительным обновлениям в истории и поэтому требует адаптивной настройки скорости обучения.
Математическое ожидание квадрата градиента
Статистическая оценка долгосрочного среднего квадратов градиентов, служащая основой для вычисления адаптивных масштабирующих множителей в оптимизаторах семейства Adagrad.
Вектор параметров
Коллекция всех оптимизируемых переменных модели, итеративно обновляемая Adagrad с индивидуально адаптированными скоростями обучения для каждой компоненты вектора.
Плохая обусловленность
Ситуация, когда масштабы градиентов в разных направлениях значительно варьируются, проблема, которую Adagrad решает специально путем динамической адаптации скорости обучения по измерениям.
Смещение коррекции
Механизм в Adam и его вариантах, исправляющий начальную смещенную оценку первого и второго моментов из-за нулевой инициализации экспоненциальных скользящих средних.
Гиперпараметр эпсилон
Маленькая константа, добавляемая в знаменатель в Adagrad и его вариантах для обеспечения численной стабильности, избегая деления на ноль, когда сумма квадратов градиентов очень мала.