Глоссарий ИИ
Полный словарь искусственного интеллекта
Процесс Кифера-Вольфовица
Расширение алгоритма Роббинса-Монро для оптимизации, использующий зашумлённые конечные разности для оценки градиента и нахождения экстремумов функции.
Стохастический метод Ньютона
Стохастический вариант метода Ньютона, где матрица Гессе оценивается на основе зашумлённых наблюдений, ускоряя сходимость к оптимуму.
Стохастический градиент (SGD)
Алгоритм оптимизации, который обновляет параметры, используя зашумлённые оценки градиента, вычисленные на подмножествах данных.
Адаптивный шаг
Стратегия динамической регулировки размера шага в алгоритмах стохастической аппроксимации для оптимизации скорости сходимости и стабильности.
Условие Роббинса-Монро
Математические условия на последовательность шагов (бесконечная сумма, но конечная сумма квадратов), гарантирующие сходимость алгоритма стохастической аппроксимации.
Смещение и дисперсия в стохастической аппроксимации
Анализ компромисса между смещением оценки из-за ненулевого шага и дисперсией из-за шума в наблюдениях для оптимизации производительности.
Метод SPSA
Simultaneous Perturbation Stochastic Approximation, эффективная техника, где градиент оценивается путём одновременного возмущения всех параметров только с двумя измерениями функции.
Шум измерения
Случайная ошибка, влияющая на наблюдения целевой функции, обычно моделируемая как аддитивный белый шум с известными статистическими свойствами.
Уменьшающаяся скорость обучения
Последовательность убывающих шагов типично вида a/(n+b), где n - итерация, обеспечивающая сходимость при сохранении эффективной скорости обучения.
Мини-пакетный градиент
Промежуточный вариант между пакетным градиентом и стохастическим градиентом, использующий небольшие пакеты наблюдений для уменьшения дисперсии оценки градиента.
Момент в стохастической аппроксимации
Техника, ускоряющая сходимость путем добавления инерции на основе предыдущих градиентов, ослабляя колебания в направлениях сильной кривизны.
Алгоритм ADAM
Адаптивная оценка моментов (Adaptive Moment Estimation), метод оптимизации, комбинирующий момент и адаптивные скорости обучения по параметрам, особенно эффективный в глубоком обучении.
Условия Липшица
Гипотеза регулярности на целевой функции, гарантирующая ограничение на изменение градиента, существенная для доказательства сходимости стохастических алгоритмов.