Методы стохастического градиента

📖

термины

Adagrad

Адаптивный алгоритм оптимизации, который динамически корректирует скорость обучения для каждого параметра на основе истории накопленных градиентов. Он позволяет выполнять большие обновления для редко встречающихся параметров и меньшие обновления для часто встречающихся.

📖

термины

RMSprop

Метод оптимизации, который решает проблему чрезмерного уменьшения скорости обучения Adagrad, используя экспоненциальное скользящее среднее квадратов градиентов. RMSprop поддерживает адаптивную скорость обучения без резкого уменьшения.

📖

термины

Décroissance du taux d'apprentissage

Техника регуляризации, которая постепенно уменьшает скорость обучения во время тренировки для обеспечения более точной сходимости к оптимальному значению. Уменьшение помогает стабилизировать оптимизацию на финальных этапах обучения.

📖

термины

Bruit de gradient

Внутренняя статистическая изменчивость оценок градиента в стохастических методах из-за случайной выборки данных. Шум может помочь избежать локальных минимумов, но требует методов для контроля его дисперсии.

📖

термины

Variance du gradient

Мера рассеяния оценок градиента в стохастических методах, напрямую влияющая на стабильность оптимизации. Снижение дисперсии является ключевой задачей для повышения эффективности стохастических алгоритмов.

📖

термины

Taille de batch

Количество образцов, используемых для вычисления каждой оценки градиента в методах мини-пакетов. Размер пакета влияет на компромисс между вычислительной эффективностью, качеством оценки градиента и обобщением.

📖

термины

Époque

Полный цикл обучения, в котором каждый образец из набора данных используется ровно один раз для обновления параметров. Эпохи позволяют структурировать обучение и контролировать прогресс обучения.

📖

термины

Méthode de Robbins-Monro

Фундаментальный алгоритм стохастической аппроксимации, который сходится к нулям функции, используя зашумленные наблюдения и убывающие шаги. Этот метод является теоретической основой современной стохастической градиентной спуска.

Глоссарий ИИ

Adagrad

RMSprop

Décroissance du taux d'apprentissage

Bruit de gradient

Variance du gradient

Taille de batch

Époque

Méthode de Robbins-Monro

Результаты не найдены